KR100333795B1 - 화속변환장치 - Google Patents

화속변환장치 Download PDF

Info

Publication number
KR100333795B1
KR100333795B1 KR1019940023601A KR19940023601A KR100333795B1 KR 100333795 B1 KR100333795 B1 KR 100333795B1 KR 1019940023601 A KR1019940023601 A KR 1019940023601A KR 19940023601 A KR19940023601 A KR 19940023601A KR 100333795 B1 KR100333795 B1 KR 100333795B1
Authority
KR
South Korea
Prior art keywords
voice
signal
ring memory
section
input
Prior art date
Application number
KR1019940023601A
Other languages
English (en)
Other versions
KR950009665A (ko
Inventor
다나까히로시
이이다마사유끼
미야다께마사노리
스기시따쇼조
호시데루오
Original Assignee
산요 덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP5265001A external-priority patent/JPH07121985A/ja
Priority claimed from JP10987394A external-priority patent/JP3357742B2/ja
Application filed by 산요 덴키 가부시키가이샤 filed Critical 산요 덴키 가부시키가이샤
Publication of KR950009665A publication Critical patent/KR950009665A/ko
Application granted granted Critical
Publication of KR100333795B1 publication Critical patent/KR100333795B1/ko

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

본 발명에 따른 화속 변환 장치에서는 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해, 링 메모리의 축적량이 산출된다. 화속 변환 수단에 있어서는 구간 판별 수단에 의해 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다.

Description

화속 변환 장치
본 발명은 음성 신호의 화속을 변화시키는 화속 변환 장치에 관한 것으로 예를 들면, 영상을 수반하는 레이저 디스크, VTR 등의 음성의 빠른 재생 또는 느린 재생을 행하는 화상 · 음성 재생 장치, 청각 장애자에게 방송되는 음성 신호를 천천히 하여 듣기 쉬운 음성으로 변환하는 청각 보조 장치, 네이티브 스피드로 말해진 외국어 음성을 천천히 하여 듣기 쉬운 음성으로 변환하는 어학 학습기 등에 이용되는 화속 변환 장치에 관한 것이다.
화속을 변환하는 종래의 기술로서, 아날로그 방식의 시간축 신장 압축 기술이 있다. 그렇지만, 아날로그 방식의 시간축 신장 압축 기술을 이용한 화속 변환 방법으로는 단순한 음성 파형의 추출 또는 음성 파형의 반복 삽입이 행해지고 있을 뿐이기 때문에, 음성의 이음매가 불연속이 되기 때문에, 음질이 나빠지는 문제가 있다.
양호한 음질이 얻어지는 음성의 시간축 압축 신장 기술로서, 디지탈 신호 처리에 의해 음성의 피치 주기를 검출하고, 검출된 피치 주기 단위 또는 피치 주기의 정수배 단위로 피치부의 추출 또는 삽입을 행하는 기술이다. 그렇지만, 이 디지탈 방식의 시간축 신장 압축 기술을 이용한 화속 변환 방법은 음성 신호에서의 무음(無音) 구간 및 음성 구간에 관계없이, 일률적인 압축 신장률로 음성 신호의 압축 또는 신장이 행해지고 있기 때문에, VTR의 배속 재생시, 어학 학습기의 외국어 음성 재생시 등에 있어서는 음성 구간의 재생 속도가 지나치게 빨라져서, 음성을 들을 수 없게 되는 경우가 발생되는 문제가 있다.
상기 문제를 해결하기 위하여, 음성 신호의 무음 구간과 음성 구간을 식별하여 무음 구간을 삭제하고, 음성 구간을 피치 주기 단위로 신장하는 화속 변환 방법이 이미 개발되어 있다. 이와 같은 방법은 다음의 문헌(A 또는 B)에 개시되어 있다.
문헌A : 신학 기법(信學 技法) SP 92-56, HC 92-33 (1992 - 09) 타이틀「화속 변환에 따르는 시간 신장을 흡수하기 위한 하나의 방법」 사단법인 전자정보통신학회 발행.
문헌 B : 신학 기법 SP 92-150 (1993 - 03) 타이를 「난청자에 의한 화속 변환 방식의 평가」 사단법인 전자정보통신학회 발행.
이 방법에 따르면, 음성 구간의 재생 속도를 느리게 할 수 있어서 음성이 듣기 쉬워진다. 그렇지만, 이 방법은 다음과 같은 문제가 있다.
문헌 A에 개시되어 있는 제1 종래 방식은 처리 부하가 크기 때문에 고속 연산이 필요해지고 소비 전력이 커진다. 문헌 B에 개시되어 있는 제2 종래 방식은 영상과 음성의 어긋남이 지나치게 커져서 내용 파악이 곤란해짐과 동시에, 음성 신호를 축적하기 위한 메모리의 용량이 팽대되어 비용이 증가된다.
본 발명의 목적은 처리 부하를 저감 가능함과 동시에, 영상과 음성의 어긋남을 적게할 수 있고, 게다가 음성 신호를 축적하기 위한 메모리 용량도 팽대되지 않는 화속 변환 장치를 제공함에 있다.
본 발명의 다른 목적은 입력 신호의 음성 구간에서의 음성의 누락부를 가능한 한 적게하면서, 음성 구간에서의 음성에 대한 음성 재생 속도를 설정된 재생 속도 배율에 비하여 늦어지게 할 수 있는 화속 변환 장치를 제공하는 것이다.
본 발명에 따른 제1 화속 변환 장치에서는, 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다. 링 메모리의 축적량이라는 것은 링 메모리에 기록된 데이타의 워드 총수에서 링 메모리로부터 판독된 데이타의 워드 총 수를 감산한 값을 말한다.
화속 변환 수단에 있어서는 구간 판별 수단에 의해 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다.
본 발명에 따른 제2 화속 변환 장치에서는, 입력되는 아날로그 음성 신호는 A/D 변환 수단에 의해 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링된다. A/D 변환 수단으로부터 출력된 음성 신호는 프레임 메모리에 입력된다. 프레임 메모리에 소요수(所要數)의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다.
본 발명에 따른 제3 화속 변환 장치에서는 입력되는 디지탈 음성 신호가 설정된 재생 속도 배율에 따른 속도로 프레임 메모리에 기록된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 판독 신호에 기초하여 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다.
상기 링 메모리라는 것은 링 구조(ring structure)를 갖는 메모리를 말한다. 링 구조라는 것은 연쇄 리스트의 최후 항목의 포인터가 선두의 항목을 가리키도록 연결되어진 것을 말한다.
본 발명에 따른 제1∼제3 화속 변환 장치에서 이용되는 신호 처리 수단으로서는 예를 들면, 다음과 같은 것이 이용된다. 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여, 현재의 상태가 다음의 (a)∼(f)로 나타낸 제1∼제6 모드 중의 어떤 모드에 해당하는지가 판정된다.
(a) 제1 모드 : 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닌 모드.
(b) 제2모드 : 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 모드.
(c) 제3모드 : 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 또한 링 메모리가 오버플로우 직전 상태가 아닌 모드.
(d) 제4모드 : 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 또한 링 메모리가 오버플로우 직전 상태인 모드.
(e) 제5모드 : 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 또한 링 메모리가 언더플로우 직전 상태가 아닌 모드.
(f) 제6모드 : 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 또한 링 메모리가 언더플로우 직전 상태인 모드.
제1 모드 또는 제3 모드로 판별되었을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 음성 신호에 대하여, 압축률 1/n보다 큰 압축률로 압축 신장 처리가 행해진다.
제2 모드 또는 제4 모드로 판별되었을 때에는 제2 처리 수단에 의해, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호가 삭제된다.
제5 모드로 판별되었을 때에는 제3 처리 수단에 의해, 무음 구간의 음성 신호가 삭제된다.
제6 모드로 판별되었을 때에는 제4 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α (단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리가 행해진다.
상기 제1 처리 수단으로서는 포인터 이동량 제어에 의한 중복 가산법 (Pointer Interval Control Overlap and Add ; PICOLA), TDHS(Time Domain Harmonic Scaling)법 등과 같이, 피치 주기 단위 또는 피치 주기의 정수배 단위로 압축 신장 처리를 행하는 것 또는 고정 프레임 길이 단위로 압축 신장 처리를 행하는 것 등이 이용된다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의 음성 신호의 파워 평균치를 산출하는 수단 및 산출된 파워 평균치와 주어진 임계 값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다. 상기 임계값을 상기 링 메모리의 축적량에 따라서 조정하도록 하여도 좋다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의 음성 신호의 파워 누적치를 산출하는 수단 및 산출된 파워 누적치와 주어진 임계 값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다. 상기 임계값을 상기 링 메모리의 축적량에 따라서 조정하도록 하여도 좋다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의음성 신호의 진폭 평균치를 산출하는 수단 및 산출된 진폭 평균치와 주어진 임계 값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다. 상기 임계값을 상기 링 메모리의 축적량에 따라서 조정하도록 하여도 좋다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의 음성 신호의 진폭 누적치를 산출하는 수단 및 산출된 진폭 누적치와 주어진 임계 값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다. 상기 임계값을 상기 링 메모리의 축적량에 따라서 조정하도록 하여도 좋다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의 음성 신호의 주기성을 감출하는 검출 수단 및 검출된 주기에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다.
상기 구간 판별 수단으로서는 예를 들면, 프레임 메모리에 입력된 소요수의 음성 신호의 소정의 1 또는 복수의 주파수 대역에 대한 파워 스펙트럼을 산출하는 산출 수단 및 산출된 파워 스펙트럼과 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단을 구비하고 있는 것이 이용된다. 상기 임계값을 상기 링 메모리의 축적량에 따라서 조정하도록 하여도 좋다.
본 발명에 따른 제4 화속 변환 장치에서는 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 구간 판별 수단에 의해 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간에 있고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간 당 변화량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제5 화속 변환 장치에서는, 입력되는 아날로그 음성 신호는 A/D 변환 수단에 의해 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링된다. A/D 변환 수단으로부터 출력된 음성 신호는 프레임 메모리에 입력된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 1배속 재생시의 샘플 링 주파수와 같은 주파수의 판독 신호에 기초하여 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변한 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해, 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제6 화속 변환 장치에서는 입력되는 아날로그 음성 신호가 입력된 재생 속도 배율에 따른 속도로 프레임 메모리에 기록된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 판독 신호에 기초하여, 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로압축 신장 처리가 행해진다.
본 발명에 따른 제4∼제6 화속 변환 장치에서 이용되는 신호 처리 수단으로서는 예를 들면, 다음과 같은 것이 이용된다. 우선, 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여, 현재의 상태가 상기 (a)∼(f)로 나타낸 제1∼제6 모드 중의 어떤 모드에 해당하는지가 판별된다.
제1 모드 또는 제3 모드로 판별되었을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
제2 모드 또는 제4 모드로 판별되었을 때에는 제2 처리 수단에 의해, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호가 삭제된다.
제5 모드로 판별되었을 때에는 제3 처리 수단에 의해, 무음 구간의 음성 신호가 삭제된다.
제6 모드로 판별되었을 때에는 제4 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α (단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리가 행해진다.
본 발명에 따른 제4∼제6 화속 변환 장치에서 이용되는 구간 판별 수단으로서는 상술한 여러가지의 것을 이용할 수 있다.
본 발명에 따른 제7 화속 변환 장치에서는 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 구간 판별 수단에 의해, 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간에 있고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제8 화속 변환 장치에서는 입력되는 아날로그 음성 신호는 A/D 변환 수단에 의해 설정 재생 속도 배율에 따른 샘플링 주파수로 샘플링된다. A/D 변환 수단으로부터 출력된 음성 신호는 프레임 메모리에 입력된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 인상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제9 화속 변환 장치에서는 입력되는 디지탈 음성 신호가 설정된 재생 속도 배율에 따른 속도로 프레임 메모리에 기록된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 판독 신호에 기초하여 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제7∼제9 화속 변환 장치의 신호 처리 수단으로서는 예를 들면, 다음과 같은 것이 이용된다. 우선, 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여, 현재의 상태가 상기 (a)∼(f)로 나타낸 제1∼제6 모드중의 어느 모드에 해당하는지가 판별된다.
제1 모드 또는 제3 모드로 판별되었을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
제2 모드 또는 제4 모드로 판별되었을 때에는 제2 처리 수단에 의해, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호가 삭제된다.
제5 모드로 판별되었을 때에는 제3 처리 수단에 의해, 무음 구간의 음성 신호가 삭제된다.
제6 모드로 판별되었을 때에는 제4 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α (단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리가 행해진다.
본 발명에 따른 제7∼제9 화속 변환 장치에서 이용되는 구간 판별 수단으로서는 상술한 여러가지의 것을 이용할 수 있다.
본 발명에 따른 제10 화속 변환 장치에서는, 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 구간 판별 수단에 의해 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제11 화속 변환 장치에서는 입력되는 아날로그 음성 신호는 A/D 변환 수단에 의해, 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링된다. A/D 변환 수단으로부터 출력된 음성 신호는 프레임 메모리에 입력된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 1배속 재생시의 샘플 링 주파수와 같은 주파수의 판독 신호에 기초하여 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제12 화속 변환 장치에서는 입력되는 디지탈 음성 신호가 설정된 재생 속도 배율에 따른 속도로 프레임 메모리에 기록된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 판독 신호에 기초하여 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서; 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제10∼제12 화속 변환 장치에서 이용되는 신호 처리 수단으로서는 예를 들면, 다음과 같은 것이 이용된다. 우선, 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여, 현재의 상태가 상기 (a)∼(f)로 나타낸 제1∼제6 모드 중의 어느 모드에 해당하는지가 판별된다.
제1 모드 또는 제3 모드로 판별되었을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
제2 모드 또는 제4 모드로 판별되었을 때에는 제2 처리 수단에 의해, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호가 삭제된다.
제5 모드로 판별되었을 때에는 제3 처리 수단에 의해, 무음 구간의 음성 신호가 삭제된다.
제6 모드로 판별되었을 때에는 제4 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α (단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리가 행해진다.
본 발명에 따른 제10∼제12 화속 변환 장치에서 이용되는 구간 판별 수단으로서는 상술한 여러가지의 것을 이용할 수 있다.
본 발명에 따른 제13 화속 변환 장치에서는 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 구간 판별 수단에 의해 입력 음성 신호가 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다. 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 변동 모드가 선택되어 있을 때에는 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제14 화속 변환 장치에서는 입력되는 아날로그 음성 신호는 A/D 변환 수단에 의해 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링된다. A/D 변환 수단으로부터 출력된 음성 신호는 프레임 메모리에 입력된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 1배속 재생시의 샘플 링 주파수와 같은 주파수의 판독 신호에 기초하여 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 수신 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다. 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 변동 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제15 화속 변환 장치에서는 입력되는 디지탈 음성 신호가 설정된 재생 속도 배율에 따른 속도로 프레임 메모리에 기록된다. 프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 화속 변환 처리 수단에 의해 그들 음성 신호에 대하여 화속 변환 처리가 행해진다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 판독 신호에 기초하여 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
화속 변환 처리 수단에 있어서는 프레임 메모리에 입력된 소요수의 음성 신호에 대한 입력 음성이 구간 판별 수단에 의해 음성 구간인지 무음 구간인지가 판별된다. 신호 처리 수단에 의해 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리가 행해진다. 신호 처리 수단에서는 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다. 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 변동 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
본 발명에 따른 제13∼제15 화속 변환 장치에서 이용되는 신호 처리 수단으로서는 예를 들면, 다음과 같은 것이 이용된다. 우선, 구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여, 현재의 상태가 상기 (a)∼(f)로 나타낸 제1∼제6 모드 중의 어느 모드에 해당하는지가 판별된다.
제1 모드 또는 제3 모드로 판별되었을 때에, 압축률 고정 모드가 선택되어 있을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
제1 모드 또는 제3 모드로 판별되었을 때에, 압축률 변동 모드가 선택되어있을 때에는 제1 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리가 행해진다.
제2 모드 또는 제4 모드로 판별되었을 때에는 제2 처리 수단에 의해, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호가 삭제된다.
제5 모드로 판별되었을 때에는 제3 처리 수단에 의해, 무음 구간의 음성 신호가 삭제된다.
제6 모드로 판별되었을 때에는 제4 처리 수단에 의해, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α (단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리가 행해진다.
본 발명에 따른 제13∼제15 화속 변환 장치에서 이용되는 구간 판별 수단으로서는 상술한 여러가지의 것을 이용할 수 있다.
본 발명에 따른 제16 화속 변환 장치에서는, 입력 음성 신호는 화속 변환 처리 수단에 의해 화속 변환 처리된다. 화속 변환 처리 수단의 출력은 링 메모리에 기록된다. 링 메모리에 기록된 데이타는 일정 속도로 판독된다. 링 메모리의 기록 신호와 판독 신호에 기초하여, 축적량 산출 수단에 의해 링 메모리의 축적량이 산출된다.
입력 음성 신호가 무음 구간일 때에는 화속 변환 처리 수단에 의해 입력 음성 신호가 삭제된다. 입력 음성 신호가 음성 구간일 때에는 화속 변환 처리 수단에 의해 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량에 따라서 결정된 압축률로 입력 음성 신호에 대하여 압축 신장 처리가 행해진다.
이하, 도면을 참조하여 본 발명을 VTR에 적용한 경우의 실시예에 대하여 설명한다.
제1도 및 제2도는 본 발명의 제1 실시예를 도시하고 있다. 제1도는 화속 변환 장치의 전체적인 구성을 도시하고 있다.
입력 음성 신호는 ALC 앰프(1)에서 증폭된 후, A/D 변환부(2)로 전송되고 예를 들면, 12 비트의 디지탈 신호로 변환된다. A/D 변환부(2)의 표준 샘플링 주파수는 예를 들면, 8 KHz이다. 2배속 재생시에는 A/D 변환부(2)의 샘플링 주파수 fsAD는 16 KHz로 된다.
A/D변환부(2)의 출력은 DSP(Digital Signal Processor : 4)로 전송됨과 동시에 레벨 검출부(3)으로도 전송된다. 레벨 검출부(3)은 A/D 변환부(2)에서 A/D변환된 데이타가 변환 레인지의 최대값이 되었을 때에, ALC(Automatic Level Control) 신호를 ALC 앰프(1)로 출력한다. 이에 따라, ALC 앰프(1)의 앰프 이득이 제어되어 A/D 변환부(2)의 입력 신호가 최대 레인지를 초과하지 않게 된다. 결국, VTR의 재생 테이프 속도가 변화하면 ALC 앰프(1)의 입력 레벨도 변화한다. 그래서, 레벨 검출부(3)의 출력에 기초하여 앰프 이득을 자동 조정함으로써, A/D 변환부(2)의 입력 신호가 최대 레인지를 초과하지 않도록 하고 있다.
DSP(4)는 2 프레임분의 음성 신호를 기억할 수 있는 용량의 프레임 메모리 (5) 및 프레임 메모리(5)에 기억된 음성 신호에 대하여 프레임 단위로 화속 변환처리를 행하는 화속 변환부(6)을 구비하고 있다. 1 프레임은 여기에서는 200개의 샘플링 데이타로 구성된 것으로 한다.
프레임 메모리(5) 내의 전반(前半) 영역 및 후반 영역 중, 한쪽 영역에 기억된 1 프레임분의 음성 신호에 대하여 화속 변환부(6)에 의해 처리가 행해짐과 동시에, 다른쪽 영역에 A/D 변환부(2)로부터의 신호가 축적된다. 그리고, 이같은 다른쪽 영역에 1 프레임분의 신호가 축적되면, 이번은 그 영역 내의 데이타에 대하여 화속 변환부(6)에 의해 처리가 행해짐과 동시에, 이미 처리가 행해진 데이타가 기억되어 있던 상기 한쪽 영역에 A/D 변환부(2)로부터의 신호가 축적된다.
화속 변환부(6)로부터 출력된 데이타는 기록 클럭에 기초하여 링 메모리(7)에 기록된다. 링 메모리(7)에 기록된 데이타는 판독 클럭에 기초하여 판독된다. 링 메모리(7)로부터 판독된 신호는 D/A 변환부(8)에 의해 아날로그 신호로 변환된 후, 앰프(10)에서 증폭되어 음성 출력 신호로서 출력된다.
D/A 변환부(8)의 샘플링 주파수 fsDA는 8 KHz이다. 또한, 링 메모리(7)의 판독 클럭의 주파수도 8 KHz이다. 링 메모리(7)로서는 21845 X 12 비트인 것 즉, 21845 워드인 것이 이용되고 있다. 따라서, 링 메모리(7)에 데이타를 축적할 수 있는 최대 시간(입력 신호에 대한 출력 시간의 최대 지연 시간)은 21845 X 1/8000 = 2.73초가 된다.
링 메모리(7)에 대한 기록 클럭은 업·다운 카운터(9)의 업 카운트용 입력 단자(UP)으로 입력한다. 링 메모리(7)에 대한 판독 클럭은 업·다운 카운터(9)의 다운 카운트용 입력 단자(DOWN)으로 입력한다. 업·다운 카운터(9)는 입력된 기록클럭의 총 수로부터 입력된 판독 클럭의 총 수를 감산한 값을 카운트하여, 그 카운트 값을 15 비트의 디지탈 신호로서 출력한다. 링 메모리(7)에 입력된 기록 클럭의 총 수(기록된 데이타의 워드 총 수)에서 링 메모리(7)에 입력된 판독 클럭의 총 수(판독된 데이타의 워드 총 수)를 감산한 값을 링 메모리(7)의 축적량으로 한다. 업·다운 카운터(9)의 출력은 화속 변환부(6)로 전송된다.
제2도는 화속 변환부(6)의 상세한 구성을 도시하고 있다.
프레임 메모리(5)로부터 판독된 음성 신호는 파워 계산부(11)로 전송되어, 1 프레임분의 음성 신호의 평균 파워값(P)가 산출된다. 이 평균 파워값(P)는 샘플링된 1 프레임 내의 각 음성 신호의 진폭을 i0, i1,......iN-1(단, N = 200)으로 하면, 다음식(1)에 의해 구해진다.
파워 계산부(11)에서 평균 파워값(P)는 비교부(12)로 보내진다. 비교부(12)에는 임계값 메모리(13)으로부터 임계값(Th)가 전송되고, 평균 파워값(P)가 임계값 (Th) 이상(P≥Th)인지 평균 파워값(P)가 임계갑(Th)보다 작은지(P<Th)가 판별된다. 비교부(12)에서는 평균 파워값(P)가 임계값(Th) 이상(P≥Th)일 때에는 현 프레임이 음성 구간인 것을 나타내는 신호가, 평균 파워값(P)가 임계값(Th)보다 작을 때에는 현 프레임이 무음 구간인 것을 나타내는 신호가 각각 출력된다.
임계값(Th)로서는 A/D' 변환부(2)의 양자화 비트수가 12비트일 때에는 예를들면, 21 2으로 설정된다. 또한, 다음과 같이 하여, 임계값(Th)를 변경하도록 하여도 좋다. 즉, 제2도에 점선으로 도시한 바와 같이, 파워 정상 상태 검출 및 임계값 갱신부(14)를 설치한다. 파워 정상 상태 검출 및 임계값 갱신부(14)는 파워 계산부 (11)로부터의 평균 파워값(P)가 소정 프레임수(예를 들면, 40 프레임)에 걸쳐서 일정하였는지의 여부를 판별하여, 일정하였을 때에는(정상 상태) 그 때의 평균 파워값(P)의 2배의 값을 임계값 메모리(13)에 기록하고, 임계값(Th)를 갱신시킨다. 단, 갱신되는 임계값의 최대값은 소정값 예를 들면, 21 4로 제한된다. 이와 같이 함으로써, 정상적으로 발생하고 있는 잡음을 잡음 구간으로서 취급할 수 있게 된다.
또한, 입력 신호의 음성 구간과 무음 구간을 다음식(2)에서 나타낸 각 프레임의 음성 신호의 파워 누적치(Pa)와 주어진 임계값에 기초하여 판별하게 하여도 좋다.
비교부(12)의 출력은 조건 분기부(15)로 전송된다. 조건 분기부(15)에는 링 메모리 축적량 상태 판별부(16)의 출력이 입력하고 있다. 또한, 조건 분기부(15)에는 파워 계산부(11)을 통하여 프레임 메모리(5)로부터의 음성 신호가 전송되고 있다. 또한, 조건 분기부(15)에는 포즈 계속 길이 설정 메모리(17)이 접속되어 있다. 포즈 계속 길이 설정 메모리(17)에는 무음 구간의 삭제 개시점을 결정하기 위한 포즈 계속 길이(Tdel : 무음 삭제 개시점 판별값)이 설정되어 있다.
링 메모리 축적량 상태 판별부(16)은 업·다운 카운터(9)로부터 전송되어 온 축적량에 기초하여, 링 메모리(7)의 상태가 오버플로우 직전 상태 되었을 때 및 링 메모리(7)의 상태가 언더플로우 직전 상태가 되었을 때를 검출한다.
결국, 오버플로우 검출용 데이타 메모리(18)에는 오버플로우 검출용 데이타 (Tmax)가, 언더플로우 검출용 데이타 메모리(19)에는 언더플로우 검출용 데이타 (Tmin)이 각각 기억되어 있다. 오버플로우 검출용 데이타(Tmax)는 예를 들면, 링 메모리(7)의 총 워드수(TOTAL) 21845 보다 200 작은값 21645로 설정되어 있다. 언더플로우 검출용 데이타(Tmin)은 예를 들면, 200으로 설정되어 있다.
그리고, 업·다운 카운터(9)로부터 전송되어 온 축적량이 오버플로우 검출용 데이타(Tmax) 이상이 되면, 링 메모리 축적량 상태 판별부(16)으로부터 오버플로우 직전 검출 신호가 출력된다. 또한, 업·다운 카운터(9)로부터 전송되어온 축적량이 언더플로우 검출용 데이타(Tmin) 이하로 되면, 링 메모리 축적량 상태 판별부(16)으로부터 언더플로우 직전 검출 신호가 출력된다. 조건 분기부(15)는 오버플로우 직전 검출 신호가 입력되어 있을 때에는 링 메모리(7)이 오버플로우 직전 상태라고 판별하고, 언더플로우 직전 검출 신호가 입력되어 있을 때에는 링 메모리(7)이 언더플로우 직전 상태라고 판별한다.
조건 분기부(15)는 비교부(12)로부터 전송되어온 음성 구간 또는 무음 구간의 판별 신호와, 링 메모리 축적량 상태 판별부(16)으로부터 전송되어온 링 메모리 상태에 관한 검출 신호와, 포즈 계속 길이 설정 메모리(17)에 설정되어 있는 포즈 계속 길이(Tdel)에 기초하여, 이하의 6가지 케이스인 경우 분기를 행한다. 그리고,그것에 따라서, 멀티플렉서(20)을 제어하여, 음성 신호를 소정의 처리부에 전송한다.
(1) 제1 제이스(case 1)
입력 신호가 음성 구간이고, 또한 링 메모리(7)이 오버플로우 직전 상태는 아니라고 판별 되었을 때에는 제1 케이스가 된다.
이 경우에는 음성 신호는 멀티플렉서(20)을 통하여 피치 압축 신장 수단(23)에 전송된다. 피치 압축 신장 수단(23)은 가변 음성 제어(VSC)를 행하는 것이며, 재생 속도 배율을 n으로 하면, 입력 신호에 대하여 압축률 1/n보다 큰 압축률로 신장 압축 처리를 행한다. 여기에서 이용되는 신장 압축법으로서는 예를 들면, 포인터 이동량 제어에 의한 중복 가산법(Pointer Interval Control Overlap and Add : PICOLA), TDHS(Time Domain Harmonic Scaling)법 등이 있다. 피치 신장 압축 수단(23)에서 신장 압축 처리가 행해진 신호는 디멀티플렉서(27)을 통하여 링 메모리(7)로 전송되어 기록 클럭에 따라서 링 메모리(7)에 기록된다.
VTR의 2배속 재생시에 있어서는 A/D 변환부(2)의 샘플링 주파수 fsAD는 16 KHz이고, D/A 변환부(8)의 샘플링 주파수 fsDA는 8KHz이다. 이 때문에, 음정은 처음으로 되돌려져서 출력된다.
종래의 일반적인 시간축 신장 압축에 있어서는 VTR의 2배속 재생시에는 압축률 1/2로 압축된다. 바꾸어 말하면, 2피치 주기가 1피치 주기로 추출된다. 이 때문에, 출력 음성은 표준 음성 속도의 2배속이 된다. 결국, 2배속 재생의 통상 재생에서는 출력 음성은 표준 음성 속도의 2배속이 된다. 단, 음정은 원래의 음정이 된다.
이에 비하여, 제2도의 화속 변환부(6)에 설치된 상기 피치 신장 압축 수단 (23)에서는 압축률이 1/2보다 큰 값으로 설정된다. 여기에서는, 압축률이 2/3로 설정 되어 있는 상태이다. 바꿔 말하면, 3피치 주기가 2피치 주기로 추출된다. 이 때문에, 표준 음성 속도의 3/2배속이 된다. 이 경우도 음정은 원래 상태대로이다. 이와 같이, 압축률 2/3로 압축된 경우에는 압축률 1/2인 경우에 비하여 2/3 - 1/2 = 1/6 만큼, 신호가 신장되게 된다. 이 신장분이 링 메모리(7)의 축적 량으로 된다.
PICOLA를 이용하여, 입력 신호를 압축률 2/3로 압축하는 방법에 대하여, 제3도를 이용하여 간단히 설명한다. 우선, 입력 신호로부터 피치 주기가 추출된다. 추출된 피치 주기를 Tp라고 한다. 파형 A에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)이 부여되어, 파형 A'가 작성된다. 파형 B에 대해서는 0에서 1로 향하는 웨이트(웨이트 함수 K2)가 부여되어, 파형 B'가 작성된다.
그리고, 그러한 파형 A' 및 B'가 더하여 합쳐져서, 길이 Tp인 파형 A'* B'가 작성된다. 이러한 웨이트는 파형 A'* B'의 전후의 접속점에서의 연속성을 유지하기 위하여 부여되고 있다. 다음에, 포인터가 압축률에 기초하여 결정되는 길이인 3Tp분만큼 이동되어 동일한 조작이 행해진다. 이에 따라, 3개의 파형 A, B, C로부터 2개의 파형 A'* B' 및 C가 얻어진다. 이와 같이 하여, 3피치 주기분의 신호가 2피치 주기분의 신호로 압축된다.
피치 신장 압축 수단(23)에 의한 신장 압축법으로서는 제4도 또는 제5도에 도시한 바와 같이, 피치 추출을 하지 않고, 소정 길이의 고정 프레임 길이(Ts) 단위로 신장 압축 처리를 행하도록 하여도 좋다. 고정 프레임 길이(Ts)는 예를 들면, 입력 데이타의 200개 분의 길이로 설정된다. 제4도 또는 제5도의 예에서는 3Ts를 2Ts로 하는 예를 도시하고 있다.
제4도의 방법은 고정 프레임 길이(Ts)의 파형 A, B, C중, 파형(A)에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)이 부여되어, 파형 A"가 작성된다. 파형 B에 대해서는 0에서 1로 향하는 웨이트(웨이트 함수 K2)가 부여되어 파형 B"가 작성된다.
그리고, 그들 파형 A" 및 B"가 더하여 합쳐져서, 길이(Ts)인 파형 A" * B"가 작성된다. 이러한 웨이트는 파형 A" * B"의 전후의 접속점에서의 연속성을 유지하기 위하여 부여되고 있다. 그리고, 다른 파형 C에 대해서는 그대로 출력된다. 이에 따라, 3개의 파형 A, B, C로부터 파형 A" * B" 및 C가 얻어진다. 이와 같이하여, 3Ts분의 신호가 2Ts분의 신호로 압축된다.
제5도의 방법에서는 고정 프레임 길이(Ts)인 파형 A∼C중의 파형 A에는 선두로부터 예를 들면, 20개의 데이타에 0에서 1로 직선적으로 향하는 웨이트(웨이트 함수 K3)를 부여하여 파형 A"를 얻는다. 파형 B에는 181개째∼200개째 까지의 입력 데이타에 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K4)를 부여하여 파형 B"를 얻는다. 그리고, 파형 C를 삭제한다. 다음 3개의 파형 D∼F에 대해서도 동일한 처리가 행해진다. 이와 같이 하여, 3개의 파형 A∼C (또는 D∼F)로 이루어진 신호는 2개의 파형 A" 및 B" (또는 D" 및 E")로 이루어진 신호로 압축된다. 결국,3Ts분의 신호가 2Ts분의 신호로 압축된다.
상기 고정 프레임 길이 단위에서의 신장 압축 처리를 이용한 경우에는 피치 주기마다의 신장 압축 처리를 이용한 경우에 비하여, 음질은 저하하지만, 처리량은 경감된다.
또한, 이 화속 변환 장치가 어학 학습기에 적용되어 있는 경우에는(1배속 재생시), A/D변환부(2)의 샘플링 주파수 fsAD는 8KHz이고, D/A 변환부(8)의 샘플링 주파수 fsDA는 8KHz이다. 이 경우에는 피치 압축 신장 수단(23)에서 예를 들면, 2피치 주기가 3피치 주기가 되도록 압축률 3/2으로 음성 신호가 신장된다. 결국, 음성 구간이 1.5배로 신장된다. 따라서, 이 경우에는 1배속 재생인 통상 재생시에 비하여 3/2 - 1 = 1/2 만큼 신호가 신장되게 되고, 이 신장분이 링 메모리(7)의 축적량이 된다.
(2) 제2 케이스(case 2)
입력 신호가 음성 구간이고, 또한 링 메모리(7)이 오버플로우 직전 상태이라고 판별되었을 때에는 제2 케이스가 된다.
이 경우에는 음성 신호는 멀티플렉서(20)을 통하여 입력 신호 삭제부(21)로 전송되어 음성 신호가 삭제된다. 구체적으로는, 업·다운 카운터(9)의 카운트 값이 언더플로우 검출용 데이타(Tmin) 이하로 될 때까지 즉, 링 메모리(7)이 언더플로우 직전 상태가 될 때까지, 링 메모리(7)로의 기록 동작이 정지된다.
링 메모리(7)이 언더플로우 직전 상태가 되면, 200개 이하의 갯수 예를 들면, 100개의 소음(消音) 신호(값 "0"인 신호)가 소음 삽입부(22)로부터 출력되고,이 소음 신호가 디멀티플렉서(27)을 통하여 링 메모리(7)에 전송되어 기록된다. 이와 같이, 소음 신호를 링 메모리(7)에 기록하고 있는 것은 음성 삭제에 의해 음성 신호의 이음매에 클릭음이 발생하는 것을 방지하기 위함이다.
(3) 제3 케이스(case 3)
입력 신호가 무음 구간이고, 또한 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel) 미만이고, 또한 링 메모리(7)이 오버플로우 직전 상태가 아니라고 판단되었을 때에는 제3 케이스가 된다.
이 경우는 상기 제1 케이스인 경우와 같은 처리가 행해진다. 단, 제3 케이스에 해당하는 경우에는 재생 속도 배율을 n으로 하면, 1/n의 압축률로 신장 압축 처리를 행하여도 좋다. 결국, 제3 케이스에 해당하는 경우에는 1/n 이상의 압축률로 신장 압축 처리가 행해진다.
(4) 제4 케이스(case 4)
입력 신호가 무음 구간이고, 또한 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel) 미만이고, 또한 링 메모리(7)이 오버플로우 직전 상태라고 판별되었을 때에는 제4 케이스가 된다.
이 경우는 상기 제2 케이스의 경우와 같은 처리가 행해진다.
(5) 제5 케이스(case 5)
입력 신호가 무음 구간이고, 또한 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel) 이상이고, 또한 링 메모리(7)이 언더플로우 직전 상태는 아니라고 판별되었을 때에는 제5 케이스가 된다.
이 경우에는, 음성 신호는 멀티플렉서(20)을 통하여 입력 신호 삭제부(25)로 전송되어 음성 신호가 삭제된다. 구체적으로는, 링 메모리(7)로의 기록 동작이 정지된다. 단, 음성 구간의 스타트 부분(무성 구간)이 누락하는 것을 방지하기도하고, 음성의 삭제에 의해 이음매에 클릭음이 발생하기도 하는 것을 방지하기 위하여, 파형 합성 삽입부(26)에 의해 파형 합성 삽입 처리가 행해진다.
파형 합성 삽입부(26)에 의한 파형 합성 삽입 처리에 대하여, 제6도 또는 제 7도를 이용하여 설명한다. 제6도에 의한 방법에서는 파형 합성 삽입부(26)은 제1 메모리(31) 및 제2 메모리(32)를 구비하고 있다. 입력 신호 삭제부(26)에 의한 입력 신호 삭제 처리의 개시시에 있어서는 삭제 개시점으로부터 1 프레임 길이 이하의 소정 길이(Ts) 예를 들면, 1 프레임분의 입력 신호가 제1 메모리(31)로 어드레스 순으로 순차 기억된다. 다음에, 제1 메모리(31)의 어드레스가 커짐에 따라서 1에서 0으로 직선적으로 변화하는 함수 K1이 제1 메모리(31)의 내용 A에 승산된다. 그리고, 그 승산 결과 A'가 다시 한번 제1 메모리(31)에 기록된다.
또한, 입력 신호 삭제부(25)에 의한 입력 신호 삭제 구간의 종료점 직전의 소정 길이(Ts)분의 입력 신호가 제2 메모리(32)에 어드레스 순으로 순차 기억된다. 다음에, 제2 메모리(32)의 어드레스가 커지면, 0에서 1로 직선적으로 변화하는 함수 K2가, 제2 메모리(32)의 내용 B에 승산된다. 그리고, 그 승산 결과 B'가 재차 제2메모리(32)에 기록된다. 그 후, 제1 메모리(31)의 내용 A'와, 제2 메모리(32)의 내용 B'가 더하여 합쳐져서, 소정 길이(Ts)인 데이타 A'* B'가 얻어진다. 그리고, 얻어진 소정 길이(Ts)분의 데이타 A'* B'가 디멀티플렉서(27)을 통하여 링메모리(7)에 전송되어 링 메모리(7)에 기록된다.
제7도에 의한 방법에서는 삭제 개시점으로부터 1프레임 길이 이하인 소정 길이(Ts), 예를 들면 1프레임분의 입력 신호가 제1 메모리(31)에 어드레스 순으로 순차 기억된다. 다음에, 후단(後端)에 1에서 0으로 직선적으로 변화하는 슬로프가 부여된 함수 K3가 제1 메모리(31)의 내용 A에 승산된다. 그리고, 그 승산 결과 A'가 재차 제1 메모리(31)로 기록된다.
또한, 입력 신호 삭제부(25)에 의한 입력 신호 삭제 구간의 종료점 직전의 소정 길이(Ts)분의 입력 신호가 제2 메모리(32)에 어드레스 순으로 순차 기억된다. 다음에, 전단(前端)에 0에서 1로 직선적으로 변화하는 슬로프가 부여된 함수 K4가 제2 메모리(32)의 내용 B에 승산된다. 그리고, 그 승산 결과 B'가 재차 제2 메모리(32)에 기록된다. 그후, 제1 메모리(31)의 내용 A'와, 제2 메모리(32)의 내용 B'가 연결되어 합쳐져서, 2Ts분의 데이타 A' + B'가 얻어진다. 그리고, 얻어진 2Ts 분의 데이타 A' + B'가 디멀티플렉서(27)을 통하여, 링 메모리(7)에 전송되어 링 메모리(7)에 기록된다. 제7도에서는 Ts가 1프레임 분의 길이인 예를 도시하였지만, 1프레임 절반 길이의 데이타를 Ts로 하여도 좋다.
또한, 입력 신호 삭제부(25)에 의한 무음 구간의 음성 신호의 삭제 처리가 반복하여 행해지고 있는 경우에, 링 메모리(7)이 언더플로우 직전 상태가 될 수 있다. 이 경우에는 링 메모리(7)이 언더플로우 직전 상태가 되었을 때부터, 소정 길이(Ts)분의 입력 신호가 제2 메모리(32)에 기억된다. 그리고, 제1 메모리(31)에 기억되어 있는 데이타와, 제2 메모리(32)에 기억되어 있는 데이타에 근거하여, 상기와 동일한 파형 합성 삽입 처리가 행해진다.
(6) 제6 케이스(case 6)
입력 신호가 무음 구간이고, 또한 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel) 이상이고, 또한 링 메모리(7)이 언더플로우 직전 상태라고 판정 되었을 때에는 제6 케이스가 된다.
이 경우는 입력 신호는 멀티플렉서(20)을 통하여 추출 처리부(24)로 전송된다. 추출 처리부(24)에서는 VTR의 재생 속도 배율을 n으로 하여, 압축률이 1/n이 되도록 추출 처리가 행해진다. 예를 들면, 2배속 재생시에는 입력 신호에 대하여 압축률 1/2로 추출이 행해지고, 3배속 재생시에는 입력 신호에 대하여 압축률 1/3로 추출이 행해진다. 1배속 재생시에는 입력 신호가 그대로 출력된다.
1/n 추출 처리부(24)에 의한 추출 처리로서는, 다음과 같은 방법이 이용된다. 여기에서는 2배속 재생시를 예로 들어 설명한다.
상술한 PICOLA 또는 TDHS를 이용한 시간축 압축법을 이용하여, 입력 신호의 피치를 추출하고, 피치 데이타 부분을 압축률이 1/2이 되도록 추출한다.
또한, 제8도, 제9도 또는 제10도에 도시한 바와 같이, 피치 추출을 하지 않고, 소정 시간(Ts)마다 파형을 추출하도록 하여도 좋다.
제8도의 방법에서는 파형 A∼D중, 파형 B 및 파형 D가 추출되어 파형 A, C로 이루어지는 신호가 얻어진다.
제9도의 방법에서는 파형 A∼D중, 파형 B와 파형 D가 추출되고 있다. 또한, 파형 A에는 전단에 0에서 1로 상승하는 슬로프(함수 K4)가, 후단에 1에서 0으로 하강하는 슬로프(함수 K3)가 부여된 함수가 승산되어 파형 A'가 작성된다. 또한, 파형 C에는 전단에 0에서 1로 상승하는 슬로프(함수 K4)가, 후단에 1에서 0으로 하강하는 슬로프(함수 K3)가 부여된 함수가 승산되어, 파형 C'가 작성된다. 이와 같이 하여, 4개의 파형 A∼D로 이루어진 신호는 2개의 파형 A' 및 C'로 이루어진 신호로 압축된다.
제10도의 방법에서는, 파형 A에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)이 부여되어 파형 A'가 작성된다. 파형 B에 대해서는 0에서 1로 향하는 웨이트(웨이트 함수 K2)가 부여되어 파형 B'가 작성된다. 그리고, 그러한 파형 A' 및 B'가 더하여 합쳐져서 길이 Ts인 파형 A' * B'가 작성된다.
마찬가지로, 파형 C에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(함수 K1)이 부여되어 파형 C'가 작성된다. 파형 D에 대해서는 0에서 1로 향하는 웨이트 (함수 K2) 가 부여되어 파형 D'가 작성된다. 그리고, 그러한 파형 C' 및 D'가 더하여 합쳐져서 길이 Ts인 파형 C' * D'가 작성된다. 이와 같이 하여, 4개의 파형 A∼ D로 이루어진 신호는 2개의 파형 A' * B' 및 C' * D'로 이루어진 신호로 압축된다.
상술한 바와 같이, 제6 케이스에 해당하는 경우에는 VTR의 재생 배율을 n으로 하여 압축률 1/n로 추출 처리가 행해지고 있지만, 다음과 같이 하여 압축률을 제어하도록 하여도 좋다.
압축률 1/n로 추출 처리가 행해지고 있는 경우, D/A 변환기(8)의 샘플링 주파수 fsDA와 A/D 변환기(2)의 샘플링 주파수 fsAD와의 비 fsDA/fsAD가 압축률 1/n과 같은 경우에는 링 메모리(7)의 축적량은 변화하지 않는다. 그렇지만, 압축률1/n의 연산 정밀도, 샘플링 주파수(fsAD와 fsDA)의 클럭 정밀도에 의해서는 fsDA/fsAD가 압축률 1/n과 같아지지 않는 일이 발생할 수 있다.
fsDA/fSAD가 압축률 1/n보다 커졌을 때(fsDA/fsAD > 1/n)에는 fsDA/fsAD = 1/a (a>0)로서, {(1/a) - (1/n)} 만큼 압축률이 작아지고, 추출의 정도가 커지고, 링 메모리(7)의 축적량이 감소되어 가서 링 메모리(7)의 축적량이 언더 플로우 할 우려가 있다.
한편, fsDA/fsAD가 압축률 1/n보다 작아졌을 때 (fsDA/fsAD < 1/n)에는 fsDA/fsAD = 1/a (a>0)로서, {(1/n) - (1/a)}만큼 압축률이 커지고, 추출의 정도가 작아져서 링 메모리(7)의 축적량이 증가하여 간다.
따라서, 추출 처리를 행하는 경우에는 링 메모리(7)의 축적량을 확인하여, 다음과 같이 압축률을 제어한다. fsDA/fsAD = 1/a (a>0)로서, (1/n) - α< 1/a <(1/n) + α의 조건을 만족하는 α를 선정한다. 단, α는 0이상이고 1이하인 값으로, 예를 들면 0.001∼0.1의 범위의 값이다.
fsDA/fsAD가 압축률 1/n보다 커겼을 때 즉, 링 메모리(7)의 축적량이 감소되어 가는 경우에는 압축률을 1/n에서 {(1/n) + α}로 한다. 결국, 압축률을 크게하고, 링 메모리(7)의 축적량을 증가시키도록 한다.
fsDA/fsAD가 압축률 1/n보다 작아졌을 때 즉, 링 메모리(7)의 축적량이 증가되어 가는 경우에는 압축률을 1/n에서 {(1/n) - α}로 한다. 결국, 압축률을 작게하고, 링 메모리(7)의 축적량을 감소시키도록 한다.
상기에서는 링 메모리(7)의 축적량에 기초하여, 압축률을 변화시키고 있지만, 추출 처리가 행해지는 경우에, 프레임마다 축적률을 {(1/n) - α} 또는 {(1/n + α}로 번갈아 변화시키게 하여도 좋다.
제11(a, b)도는 화속 변환부(6)에 의한 처리 수순을 도시하고 있다.
이하, VTR의 2배속 재생시인 경우의 화속 변환부(6)에 의한 처리에 대하여 설명한다.
(1) 재생 개시시의 처리
재생이 개시되어, 파워 연산부(11)에 의해 최초 프레임의 평균 파워값 P가 산출되면(스텝1), 산출된 평균 파워값 P가 임계값(Th) 이상인지의 여부가 비교부 (12)의 출력에 기초하여 판별된다(스텝 2).
입력 음성 신호가 무음 구간에서 개시한 경우, 최초의 프레임에 있어서는 평균 파워값(P)는 임계값(Th)보다 작아지고, 스텝11로 진행한다. 그리고, 무음 구간의 계속 길이(무음 구간이 계속하는 프레임 수)가 산출되고, 산출된 계속 길이가 포즈 계속 길이 메모리(17)에 설정되어 있는 포즈 계속 길이(Tdel) 이상인지의 여부가 판별된다(스텝 12). 이 포즈 계속 길이(Tdel)은 예를 들면, 프레임 수로서 4 프레임분의 길이로 설정되어 있다.
최초의 프레임에 대한 처리에 있어서는 무음 구간의 게속 길이가 포즈 계속 길이(Tdel) 미만이기 때문에, 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 링 메모리(7)이 언더플로우 직전 상태인지의 여부가 판별된다(스텝13, 14).
최초의 프레임에 대한 처리에 있어서는, 링 메모리(7)은 언더플로우 직전 상태로 되어 있기 때문에, 프레임 데이타가 추출 처리부(24)에 의해 압축률 1/2로 추출되고(스텝28), 추출 처리후의 압축 데이타가 링 메모리(7)에 기록된다. 그후, 스텝1로 되돌아간다.
(2) 제1 케이스로 되는 처리의 설명
스텝2에서, 평균 파워값(P)가 임계값(Th) 이상이라고 판별되었을 때에는, 금회(今回)의 프레임이 음성 구간이라고 판단되어 스텝3으로 진행한다. 스텝3에서는 이전의 프레임이 삭제 구간이었는지의 여부가 제1 플래그(F1)의 상태에 기초하여 판별된다. 이전의 프레임이 삭제 구간이 아닐 경우에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여 링 메모리(7)이 오버플로우 직전 상태인지의 여부가 판별된다(스텝6, 7). 이전의 프레임이 삭제 구간인 경우에는 스텝(4 및 5)의 처리가 행해진 후, 링 메모리(7)이 오버플로우 직전 상태인지의 여부가 판별된다 (스텝6, 7). 스텝(4 및 5)의 처리에 대해서는 후술한다.
스텝7에서, 오버플로우 직전 상태는 아니라고 판별된 경우에는 제1 케이스가 되고, 피치 압축 신장 수단(23)에 의해 금회의 프레임 데이타가 2/3의 압축률로 시간축 압축된다(스텝8). 압축 데이타는 링 메모리(7)로 전송되어 기록된다. 그 후, 스텝1로 되돌아간다.
(2) 제2 케이스가 되는 처리의 설명
스텝2에서 평균 파워값(P)가 임계값(Th) 이상이라고 판별되었을 때에는 금회 전송되어온 프레임은 음성 구간이라고 판단되어, 스텝3으로 진행한다. 스텝3에서는 이전의 프레임이 삭제 구간이었는지의 여부가 제1 플래그(F1)의 상태에 기초하여 판별된다. 이전의 프레임이 삭제 구간이 아닐 경우에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 링 메모리(7)이 오버플로우 직전 상태인지의 여부가 판별된다(스텝6, 7). 이전의 프레임이 삭제 구간인 경우에는 스텝(4 및 5)의 처리가 행해진 후, 링 메모리(7)이 오버플로우 직전 상태인지의 여부가 판별된다 (스텝6, 7). 스텝(4 및 5)의 처리에 대해서는 후술한다.
스텝7에 있어서, 오버플로우 직전 상태라고 판별되었을 경우에는 제2 케이스가 되고, 링 메모리 축적량 상태 판별부(16)으로부터 언더플로우 검출 신호가 출력 될 때까지, 입력 신호 삭제부(21)에 의해 입력 신호가 삭제된다(스텝 9). 결국, 링 메모리(7)이 언더플로우 직전 상태가 될 때까지, 링 메모리(7)로의 기록이 정지된다.
그리고, 링 메모리(7)이 언더플로우 직전 상태가 되면, 소음 삽입부(22)에 의해 200개 이하인 소정수의 소음 신호 "0"이 링 메모리(7)에 기록된다(스텝10). 그리고, 스텝1로 되돌아간다.
상기 스텝10의 처리 대신에, 제13도 또는 제14도에 도시한 바와 같은 처리를 행하여도 좋다. 제13도에 도시한 방법에 대하여 설명하면, 스텝7에서 오버플로우 직전 상태라고 판별되었을 때부터 예를 들면, 200개의 입력 신호에 대한 파형(A)에 대해서는, 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)을 부여하여 파형(A')를 얻는다. 또한, 언더플로우 직전부터 200개 전까지의 200개의 입력 신호에 대한 파형 B에 대하여 0에서 1로 향하는 웨이트(웨이트 함수 K2)를 부여하여 파형 B'를 얻는다.
그리고, 얻어진 2개의 파형 A' 및 B'를 더하여 합쳐서, 200개분 길이의 파형A' * B'를 작성한다. 그리고, 이 파형 A' * B'에 대한 200개의 신호를 링 메모리 (7)에 기록한다. 또한, 언더플로우 직전에서 200개 전의 시점의 검출은 업·다운 카운터(9)의 카운트 값에 기초하여 행해진다. 이에 따라, 음성 삭제 구간 전후의 음성 신호의 이음매에 클릭음이 발생하는 것을 효과적으로 방지할 수 있다.
제14도에 도시한 방법에 대하여 설명하면, 스텝7에서 오버플로우 직전 상태라고 판별되었을 때부터 예를 들면, 100개의 입력 신호에 대한 파형 A에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)을 부여하여 파형 A'를 얻는다. 또한, 언더플로우 직전부터 100개 이전까지의 100개의 입력 신호에 대한 파형 B에 대해서는 0에서 1로 향하는 웨이트(웨이트 함수 K2)를 부여하여, 파형 B'를 얻는다. 그리고, 얻어진 2개의 파형 A' 및 B'를 연결하여 합친 200개분의 신호를 링 메모리(7)에 기록한다.
상기 스텝9에서는 오버플로우 직전 상태라고 판별된 경우에는, 링 메모리 축적량 상태 판별부(16)에서 언더플로우 검출 신호가 출력될 때까지, 입력 신호 삭제부(21)에 의해 입력 신호가 삭제되고 있지만, 링 메모리(7)에 축적되어 있는 데이타를 링 메모리(7)이 언더플로우 직전 상태가 되도록, 삭제하게 하여도 좋다.
구체적으로는 링 메모리(7)의 기록 개시 어드레스를 제15도에 도시한 오버플로우 직전 상태일 때의 어드레스(C지점)에서, 제16도에 도시한 바와 같이 링 메모리(7)이 언더플로우 직전 상태가 되는 어드레스(A지점)까지 점프시킨다. 따라서, 스텝9의 처리에서는 A지점에서 C지점까지의 어드레스에 축적되어 있던 데이타가 삭제되게 된다. 그후, 제17도에 도시한 바와 같이, 스텝10에 의해 소음 신호가 기록된 후, 입력 데이타가 기록되어 간다.
스텝9에 있어서 상기와 같이, 링 메모리(7)에 축적되어 있는 데이타를 링 메모리(7)이 언더플로우 직전 상태가 되도록 삭제한 경우, 스텝10에서 소음 신호를 링 메모리(7)에 기록하는 대신에 제18도 또는 제19도와 같은 처리를 행하여도 좋다.
이제, 링 메모리(7)의 기록 개시 어드레스가 제15도에 도시한 오버플로우 직전 상태일 때의 어드레스(C지점)에서, 제16도에 도시한 바와 같이 링 메모리(7)이 언더플로우 직전 상태가 되는 어드레스(A지점)까지 점프한 상태가 된다. 이 A지점에서 소정수 예를 들면, 200개 이전의 어드레스(제18도의 B지점)까지에 축적되어 있는 데이타(S)에 대해서는 제18도에 도시한 바와 같이, 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)을 부여하여 파형 S'를 얻는다. 또한, 그 이후에 링 메모리(7)에 기록되는 200개분의 입력 데이타(파형 T)에 대해서는 제18도에 도시한 바와 같이, 0에서 1로 향하는 웨이트(웨이트 함수 K2)를 부여하여 파형 T'를 얻는다.
그리고, 얻어진 2개의 파형 S' 및 T'를 더하여 합쳐서, 200개분 길이의 파형 S' * T'를 작성한다. 그리고, 이 파형 S' * T'에 대한 200개의 신호를 A지점부터 링 메모리(7)에 기록한다. 이에 따라, 축적 데이타 삭제 구간 전후의 음성 신호의 이음매에 클릭음이 발생하는 것을 효과적으로 방지할 수 있다.
제19도에 도시한 방법에 대하여 설명하면, 제19도의 A지점에서 소정수, 예를들면, 100개 이전의 어드레스(제19도의 B지점)까지 축적되어 있는 데이타 S에 대해서는 1에서 0으로 직선적으로 향하는 웨이트(웨이트 함수 K1)을 부여하여 파형 S'를 얻는다. 또한, 그 이후에 링 메모리(7)에 기록되는 100개분의 입력 데이타(파형 T)에 대해서는 0에서 1로 향하는 웨이트(웨이트 함수 K2)를 부여하여 파형 T'를 얻는다. 그리고, 얻어진 2개의 파형 S' 및 T'를 연결하여 합친 200개분의 신호를 A지점부터 링 메모리(7)에 기록한다.
(4) 제3 케이스가 되는 처리의 설명
스텝2에서 평균 파워값(P)가 임계값(Th)보다 작다고 판별되었을 때에는 금회까지의 무음 구간의 계속 길이가 산출되고(스텝 11), 산출된 계속 길이가 포즈 계속 길이 메모리(17)에 설정되어 있는 포즈 계속 길이(Tdel) 이상인지의 여부가 판별된다(스텝 12). 그리고, 무음 구간의 계속 길이가 포즈 계속 길이(Tdel) 미만이라고 판별된 경우에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여 언더플로우 직전 상태인지의 여부가 판별된다(스텝13, 14).
링 메모리(7)이 언더플로우 직전 상태로 되어있지 않을 때에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여 오버플로우 직전 상태인지의 여부가 판별된다(스텝6, 7). 오버플로우 직전 상태가 아닐 경우에는 제3 케이스가 되고, 피치 압축 신장 수단(23)에 의해 금회의 프레임 데이타가 2/3의 압축률로 시간축 압축된다(스텝8). 압축 데이타는 링 메모리(7)로 전송되어 기록된다. 그 후, 스텝 1로 되돌아간다.
(5) 제4 케이스가 되는 처리의 설명
스텝2에서 평균 파워값(P)가 임계값(Th)보다 작다고 판별되었을 때에는 금회까지의 무음 구간의 계속 길이가 산출되고(스텝11), 산출된 계속 길이가 포즈 계속 길이 메모리(17)에 설정되어 있는 포즈 계속 길이(Tdel) 이상인지의 여부가 판별된다(스텝12). 그리고, 무음 구간의 계속 길이가 포즈 계속 길이(Tdel) 미만이라고 판별되었을 경우에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 언더플로우 직전 상태 인지의 여부가 판별된다(스텝 13, 14).
링 메모리(7)이 언더플로우 직전 상태로 되어있지 않을 때에는 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 오버플로우 직전 상태인지의 여부가 판별된다(스텝6, 7). 오버플로우 직전 상태인 경우에는 제4 케이스가 되고, 링 메모리 축적량 상태 판별부(16)에서 언더플로우 검출 신호가 출력될 때까지, 입력 신호 삭제부(21)에 의해 입력 신호가 삭제된다(스텝9). 결국, 링 메모리(7)이 언더플로우 직전 상태가 될 때까지 링 메모리(7)로의 기록이 중단된다.
그리고, 링 메모리(7)이 언더플로우 직전 상태가 되면, 소음 삽입부(22)에 의해 200개 이하의 소정수의 소음 신호 "0"이 링 메모리(7)에 기록된다(스텝 10). 그리고, 스텝1로 되돌아간다.
(6) 제5 케이스가 되는 처리의 설명
스텝2에서 평균 파워값(P)가 임계값(Th)보다 작다고 판별되었을 때에는 금회까지의 무음 구간의 계속 길이가 산출되고(스텝 11), 산출된 계속 길이가 포즈 계속 길이 메모리(17)에 설정되어 있는 포즈 계속 길이(Tdel) 이상인지의 여부가 판별된다(스텝 12), 그리고, 무음 구간의 계속 길이가 포즈 계속 길이(Tdel) 이상이라고 판별된 경우에도 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 언더플로우 직전 상태인지의 여부가 판별된다(스텝 15, 16).
링 메모리(7)이 언더플로우 직전 상태가 아닐 때에는 제5 케이스가 되고, 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간인 것을 나타내는 제1 플래그(F1)이 세트된다(스텝17). 이 제1 플래그(F1)은 전원 투입시의 초기 설정에 있어서, 리셋(F1 = 0)되어 있다. 그리고, 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간 최초의 프레임인지의 여부를 나타내는 제2플래그(F2)가 리셋되어 있는지의 여부가 판별된다(스텝18).
이 제2 플래그(F2)는 전원 투입시의 초기 설정에 있어서, 리셋(F2 = 0)되어있다. 그리고, 입력 신호 삭제부(25)에 의한 삭제 구간 최초의 프레임에 대한 처리가 종료되었을 때에 세트(F2 = 1)된다. 그리고, 입력 신호 삭제부(25)에 의한 일련의 삭제 구간에 대한 처리가 종료되었을 때에 리셋(F2 = 0)된다.
따라서, 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간 최초의 프레임일 때에는 제2 플래그(F2)는 리셋(F2 = 0)되어 있다. 제2 플래그(F2)가 리셋 되어 있을 때에는 파형 합성 삽입부(26)에 의해 제1 메모리(31)에 금회의 프레임 데이타가 기억된다(스텝19). 또한, 입력 신호 삭제부(25)에 의해 금회의 프레임 데이타의 링 메모리(7)에의 기록이 정지된다(스텝20). 결국, 금회의 프레임 데이타가 삭제된다. 그리고, 제2 플래그(F2)가 세트(F2 = 1)된 후(스텝21). 스텝1로 되돌아간다.
또한, 무음 구간이 계속되어 있는 경우에는 스텝(2, 11, 12, 15)를 통하여 스텝16으로 이동하고, 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 링메모리(7)이 언더플로우 직전 상태인지의 여부가 판별된다.
링 메모리(7)이 언더플로우 직전 상태가 아닐 때에는 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간인 것을 나타내는 제1 플래그(F1)이 세트된다(스텝17). 그리고 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간 최초의 프레임인지의 여부를 나타내는 제2플래그(F2)가 리셋되어 있는지의 여부가 판별된다(스텝 18).
이 경우에는 제2 플래그(F2)는 세트(F2 = 1)되어 있기 때문에, 금회의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간 최초의 프레임이 아니라고 판단된다. 이 경우에는 파형 합성 삽입부(26)에 의해 제2 메모리(32)에 금회의 프레임 데이타가 기억된다(스텝22). 또한, 입력 신호 삭제부(25)에 의해 금회의 프레임 데이타의 링 메모리(7)로의 기록이 정지된다(스텝23). 그리고 스텝1로 되돌아간다.
그리고, 또한 무음 구간이 계속 또는 링 메모리가 언더플로우 직전 상태로 되어있지 않을 때에는 스텝(2, 11, 12, 15, 16, 17, 18, 22 및 23)의 처리가 반복된다. 결국, 제2 메모리(32)의 프레임 데이타가 갱신됨과 동시에, 프레임 데이타의 링 메모리(7)로의 기록이 정지된다.
그 후, 음성 구간의 프레임 데이타가 입력되었을 때에는 스텝2에 있어서, 평균 파워값(P)가 임계값(Th) 이상이 되기 때문에, 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이었는지의 여부가, 제1 플래그(F1) 상태에 기초하여 판별된다(스텝3). 이 경우에는 제1 플래그(F1)이 세트(F1 = 1)되어 있기 때문에, 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이었다고 판별되고, 스텝4로이동한다. 스텝4에서는 입력 신호 삭제부(25)에 의한 삭제 처리가 정지되게 함과 동시에, 파형 합성 삽입부(26)에 의한 파형 합성 삽입 처리가 행해진다.
즉, 제6도를 이용하여 이미 설명한 바와 같이, 제1 메모리(31)의 내용에 1에서 0으로 직선적으로 변화하는 함수가 승산되고, 제2 메모리(32)의 내용에 0에서 1로 직선적으로 변화하는 함수가 승산되고, 이들 양 승산 결과가 더하여 합쳐진다. 이 가산 결과(제6도의 A' * B'에 상당한다)가 디멀티플렉서(27)을 통하여 링 메모리(7)로 전송되어 링 메모리(7)에 기록된다.
그 후, 제1 플래그(F1) 및 제2 플래그(F2)가 리셋(F1 = F2 = 0)된다(스텝 5). 그리고, 스텝6으로 진행한다.
그런데, 연속되어 있는 무음 구간에 대하여, 상기와 같은 입력 신호 삭제부 (25)에 의한 삭제 처리가 반복하여 행해지고 있는 경우에 있어서, 링 메모리(7)이 언더플로우 직전 상태가 될 때가 있다. 이 경우에는, 상기 스텝16에서 YES가 되어, 스텝 24로 이동한다. 스텝24에서는 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이었는지의 여부가 제1 플래그(F1)의 상태에 기초하여 판별된다.
이 경우에는 제1 플래그(F1)이 세트(F1 = 1)되어 있기 때문에, 스텝25로 진행하고, 제2 메모리(32)에 금회의 프레임 데이타가 기억된다. 그리고, 입력 신호 삭제부(25)에 의한 삭제 처리가 정지되게 함과 동시에 파형 합성 삽입부(26)에 의한 파형 합성 삽입 처리가 행해진다(스텝26). 그리고, 제1 플래그(F1) 및 제2플래그(F2)가 리셋(F1 = F2 = 0)된 후(스텝27), 스텝1로 진행한다.
상기 스텝26에서 파형 합성 삽입부(26)에 의한 파형 합성 삽입 처리는 상기스텝4에서 설명한 파형 합성 삽입 처리와 거의 동일하지만, 제2 메모리(32)에 기억되어 있는 프레임 데이타가 링 메모리(7)이 언더플로우 직전 상태가 된 후의 프레임 데이타인 점이 상기 스텝4에서 설명한 처리의 경우와 달라져 있다.
또한, 상기 스텝25의 처리를 생략하고, 스텝24에서 YES가 된 경우에, 제2 메모리(32)에 금회의 프레임 데이타를 기억시키지 않고, 스텝26으로 이동하게 하여도 좋다. 이 경우에는, 스텝26에서 행해지는 파형 합성 처리에 있어서는 상기 스텝4에서 설명한 파형 합성 삽입 처리와 마찬가지로, 제2 메모리(32)에 기억되어 있는 언더플로우 직전 상태보다 이전의 프레임 데이타(전회의 프레임 데이타)가 이용된다.
또한, 상기 스텝22의 처리를 생략함과 동시에 상기 스텝3과 상기 스텝4와의 사이에, 프레임 데이타를 제2메모리(32)에 기억시키는 스텝을 추가하도록 하여도 좋다. 이 경우에는, 스텝4에 있어서는 상기 스텝19에서 제1 메모리(31)에 기억된 내용과, 상기 스텝3과 상기 스텝4와의 사이에 추가된 스텝에 있어서 제2 메모리 (32)에 기록된 내용에 기초하여 파형 합성 삽입 처리가 행해진다.
(6) 제6 케이스가 되는 처리의 설명
스텝2에서 평균 파워값(P)가 임계값(Th)보다 작다라고 판별되었을 때에는 금회까지의 무음 구간의 계속 길이가 산출되고(스텝11), 산출된 계속 길이가 포즈 계속 길이(Tdel) 이상인지의 여부가 판별된다(스텝12). 그리고, 무음 구간의 계속 길이가 포즈 계속 길이(Tdel) 이상이라고 판별된 경우에는, 링 메모리 축적량 상태 판별부(16)의 출력에 기초하여, 언더플로우 직전 상태인지의 여부가 판별된다 (스텝15, 16).
링 메모리(7)이 언더플로우 직전 상태일 때에는 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이었는지의 여부가 제1 플래그(F1)의 상태에 기초하여 판별된다(스텝24). 제1 플래그(F1)이 리셋되어 있는 경우(F1 = 0), 즉, 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이 아니었던 경우에는 제6 케이스가 되어 스텝28로 이동한다. 스텝 28에서는 추출 처리부(24)에 의해 금회의 프레임 데이타가 압축률 1/2로 추출 처리가 행해진다. 그리고, 추출 처리된 데이타는 링 메모리(7)로 전송되어 기록된다. 그 후, 스텝1로 되돌아간다.
결국, 무음 구간의 계속 길이가 포즈 계속 길이(Tdel) 이상이었어도 링 메모리(7)이 언더플로우 직전 상태이고, 또한 이전의 프레임이 입력 신호 삭제부(25)에 의한 삭제 구간이 아닌 경우에는 프레임 데이타는 삭제되지 않고, 압축률 1/2로 추출 처리가 행해진 후, 링 메모리(7)에 기록된다.
제11(b)도에 있어서는 스텝12에 있어서, 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel)보다 긴지의 여부가 판별되고 있지만, 제12도의 스텝 12A에 도시한 바와 같이, 무음 구간의 계속 길이(T)가 설정된 제1 기준 길이(T1) 미만인지 (T < T1), 무음 구간의 계속 길이(T)가 설정된 제12 기준 길이(T1) 이상으로 설정된 제2 기준 길이(T2)(단, T1 < T2) 미만인지(T1≤T < T2), 또는 무음 구간의 계속 길(T)가 설정된 제2 기준 길이(T2) 이상인지(T≥T2)를, 판별하도록 하여도 좋다. 제1 기준 길이로서는 예를 들면, 4 프레임분의 길이가 제2 기준 길이로서 예를 들면 40 프레임분의 길이가 설정된다.
그리고, 제12도에 도시한 바와 같이, 각 판별 결과에 따라서, 다음과 같은스텝으로 진행하도록 하여도 좋다. 즉, 무음 구간의 계속 길이(T)가 설정된 제1 기준 길이(T1) 미만(T < T1)인 경우에는 스텝13으로 진행한다. 무음 구간의 계속 길이(T)가 설정된 제1 기준 길이(T1) 이상으로 설정된 제2 기준 길이(T2)(T1 < T2) 미만(T1≤T< T2)일 때에는 스텝28로 진행하여 1/n 추출 처리에 의한 추출을 행한다. 무음 구간의 계속 길이(T)가 설정된 제2 기준 길이(T2) 이상(T≥T2)일 때에는 스텝15로 진행한다.
제20(a, b)도는 2배속 재생시의 입력 신호와 출력 신호와의 관계를 도시하고, 특히 무음 구간의 입력 신호가 삭제되는 모양을 도시하고 있다. 제21도∼제30도는 링 메모리(7)로의 데이타 기록 개시점, 링 메모리(7)로부터의 데이타 판독 개시점 및 제20도의 각 점(A∼H)에서의 링 메모리(7)의 상태를 도시하고 있다.
제20(a)도에서는, 2배속 재생 개시시에 있어서는, 입력 신호는 무음 구간이 되어 있고, 또한 링 메모리(7)은 비어있는 상태이기 때문에(제21도 참조), 프레임 데이타가 추출 처리부(24)에 의해 압축률 1/2로 추출된 후, 링 메모리(7)에 기록되어 간다.
그리고, 링 메모리(7)의 축적량(Tm)이 언더플로우 검출용 데이타(Tmin)에 도달하면, 링 메모리(7)로부터의 데이타의 판독이 개시된다(제22도 참조).
그리고, 입력 신호의 음성 구간(a)에 대한 프레임 데이타가 전송되어 오면(A 점), 피치 압축 신장 수단(23)에 의해, 프레임 데이타가 압축률 2/3으로 압축된다. 입력 신호와 출력 신호와의 길이가 일치하는 압축률 1/2의 압축을 기준으로 하면 프레임 데이타가 신장된다. 이런 의미에서, 제20도에는 신장 처리라고 기재되어 있다. 그리고, 이 압축 데이타가 링 메모리(7)에 기록된다. A점에 있어서는 제23도에 도시한 바와 같이, 축적량(TmA)는 Tmin상태 그대로이다.
입력 신호의 음성 구간(a)에 대한 출력 신호(a1)은 A점에서의 축적량(TmA)분 만큼 늦게 판독되어 간다. 그리고, 입력 신호의 음성 구간(a)가 입력되어 종료된 시점(B점)에서는 제24도에 도시한 바와 같이, 금회의 압축 구간의 개시점인 A점에서의 축적량(Tmin)과, A점에서 B점까지의 음성 구간(a)의 압축 데이타의 압축률 1/2의 압축에 대한 신장분(StB)과의 합이 링 메모리(7)의 축적량(TmB ; = StB + Tmin)이 된다. 따라서, 입력 신호의 음성 구간(a)에 대한 출력 신호(a1)은 B점으로 부터 TmB(= StB + Tmin)분이 경과한 점에서 출력되어 끝난다.
입력 신호의 음성 구간(a)에 계속하는 계속 길이(Tdel) 미만의 무음 구간의 프레임 데이타도 피치 압축 신장 수단(23)에 의해 압축률 2/3으로 압축된다. 이 무음 구간에 계속하여 음성 구간(b)가 입력되면, 이 음성 구간(b)의 프레임 데이타도 피치 압축 신장 수단(23)에 의해 압축률 2/3으로 압축된다.
그리고, 입력 신호의 음성 구간(b)가 입력되어 끝난 시점(C점)에서는 제25도에 도시한 바와 같이, 금회의 압축 구간의 개시점인 A점에서의 축적량(Tmin)과, A 점에서 C점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분 (StC)와의 합이 링 메모리(7)의 축적량(TmC)(= StC + Tmin)이 된다. 따라서, 입력 신호의 음성 구간(b)에 대한 출력 신호(b1)은 C점으로부터 TmC(= StC + Tmin)분이 경과된 점에서 출력되어 끝난다.
입력 신호의 음성 구간(b)에 계속하여, 포즈 계속 길이(Tdel) 이상 길이의무음 구간의 신호가 전송되어 왔을 때에는, 포즈 계속 길이(Tdel)에 도달할 때까 지(D점)은 프레임 데이타가 피치 압축 신장 수단(23)에 의해 압축률 2/3으로 압축된다.
D점에서는 제26도에 도시한 바와 같이, 금회의 압축 구간의 개시점인 A점에서의 축적량(Tmin)과 A점에서 D점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StD)와의 합이 링 메모리(7)의 축적량(TmD)(= StD + Tmin)이 된다. 따라서, 입력 신호의 음성 구간(b)와 D점과의 사이의 무음 구간에 대한 출력 신호의 음성 구간(b)와 D점과의 사이의 무음 구간에 대한 출력 신호는 D점으로부터 TmD(= StD + Tmin)분이 경과한 점에서 출력되어 끝난다.
포즈 계속 길이(Tdel) 이후의 무음 구간의 프레임 데이타는 링 메모리(7)의 축적량이 언더플로우 검출용 데이타(Tmin) 이하로 될 때까지, 입력 신호 삭제부 (25)에 의해 삭제된다. 이 포즈 삭제 부분의 길이(StD)는 금회의 압축 구간의 개시점인 A점에서 D점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StD)와 같아진다. 입력 신호 삭제부(25)에 의해 삭제 처리가 행해진 후에 있어서는 파형 합성 삽입부(22)에 의해 클릭음 방지를 위한 합성 파형이 삽입되지만, 제20도에는 삽입된 합성 파형 부분을 생략하고 있다.
입력 신호가 삭제된 구간의 최종점(E점)에 있어서는 제27도에 도시한 바와 같이, 링 메모리(7)의 축적량(TmE)는 언더플로우 검출용 데이타(Tmin) 이하가 된다. 여기에서는, 축적량(TmE)가 언더플로우 검출용 데이타(Tmin)와 같아진 예를 도시하고 있다.
E점으로부터의 무음 구간에 대한 프레임 데이타는 추출 처리부(24)에 의해 압축률 1/2로 추출된 후, 프레임 메모리(7)에 기록된다. 그리고, 음성 구간(c)의 신호가 입력되면(F점), 이 음성 구간(c)의 프레임 데이타가 피치 압축 신장 수단 (23)에 의해 압축률 2/3로 압축된다. 결국, 새로운 압축 구간이 개시된다. 그리고, 압축 데이타가 링 메모리(7)에 기록된다.
F점에서는 제28도에 도시한 바와 같이, 링 메모리(7)의 축적량(TmF)는 E점 일 때와 같은 Tmin이 되어 있다.
입력 신호의 음성 구간(c)에 대한 출력 신호(c1)은 F점에서의 축적량(Tmin)분만큼 늦게 출력되어 간다. 입력 신호의 음성 구간(c)에 계속하여 포즈 계속 길이 (Tdel) 미만의 무음 구간(음성 구간 c로부터 G점까지의 무음 구간)의 프레임 데이타도 피치 압축 신장 수단(23)에 의해 압축률 2/3로 압축된다.
G점에서는 제29도에 도시한 바와 같이, 금회의 압축 구간의 개시점인 F점에서의 축적량(Tmin)과, F점에서 G점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StG)와의 합이 링 메모리(7)의 축적량(TmG : = StG+Tmin)이 된다. 따라서, 입력 신호의 음성 구간(c)로부터 G점까지의 무음 구간에 대한 출력 신호는 G점으로부터(TmG : = StG+Tmin)분이 경과된 점에서 출력되어 끝난다.
포즈 계속 길이(Tdel) 이후의 무음 구간의 프레임 데이타는 링 메모리(7)의 축적량이 언더플로우 검출용 데이타(Tmin)이 될 때까지, 입력 신호 삭제부(25)에 의해 삭제된다. 이 포즈 삭제 부분의 길이(Std)는 금회의 압축 구간의 개시점인 F점으로부터 G점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StG)와 같아진다.
입력 신호가 삭제된 구간의 최종점(H점)에 있어서는, 제30도에 도시한 바와 같이 링 메모리(7)의 축적량(TmH)는 언더플로우 검출용 데이타(Tmin) 이하로 된다. 여기에서는 축적량(TmH)가 언더플로우 검출용 데이타(Tmin)과 같아진 예를 도시하고 있다.
H점으로부터의 무음 구간에 대한 프레임 데이타는 추출 처리부(24)에 의해 압축률 1/2로 추출된 후, 프레임 메모리(7)에 기록된다. 그리고, 음성 구간(d)의 신호가 입력되면, 이 음성 구간(d)의 프레임 데이타가 피치 압축 신장 수단(23)에 의해 압축률 2/3로 압축된다. 그리고, 신장된 데이타가 링 메모리(7)에 기록된다.
제31도는 2배속 재생시의 입력 신호와 출력 신호와의 관계를 도시하였고, 특히 오버플로우 직전 상태가 되었을 때, 입력 신호가 삭제되는 모양을 나타내고 있다. 제32도∼제34도는 제31도의 각 점(S∼U)에서의 링 메모리(7)의 상태를 도시하고 있다.
어떤 시점으로부터 T점까지의 음성 구간(a, b, c) 등과 무음 구간을 포함하는 일련의 입력 신호에 대한 프레임 데이타가 피치 압축 신장 수단(23)에 의해 압축률 2/3으로 압축되어(압축률 1/2의 압축에 대해서는 신장되어) 있는 상태가 된다. 이 경우에는, 링 메모리(7)에 신장분이 축적되어 간다.
음성 구간(b)의 입력 개시점(S점)에 있어서는, 제32도에 도시한 바와 같이, 해당 1련의 입력 신호의 압축 처리 개시점에서의 축적량(Tmin)과, 상기 압축 처리의 개시점으로부터 S점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StS)와의 합이 링 메모리(7)의 축적량(TmS ; = StS+Tmin)이 된다. 따라서, 음성 구간(b)에 대한 출력 신호(b1)은 S점으로부터 TmS(= StS+Tmin)분이 경과된 점에서 출력되기 시작된다.
음성 구간(c)의 입력 신호에 대응하는 압축 데이타가 링 메모리(7)에 기록된 시점(T점)에 있어서, 링 메모리(7)이 오버플로우 직전 상태가 되었다. 즉, T점에 있어서, 링 메모리(7)의 축적량이 오버플로우 검출용 데이타(Tmax) 이상인 상태가 되었다.
T점에 있어서는 제33도에 도시한 바와 같이, 해당 1련의 입력 신호에 대한 압축 처리의 개시점에서의 축적량(Tmin)과, 상기 압축 처리 개시점으로부터 T점까지의 입력 신호에 대응하는 압축 데이타의 1/2 압축에 대한 신장분(StT)와의 합이 링 메모리(7)의 축적량(TmT : = StT+Tmin)가 된다. 바꾸어 말하면, 링 메모리(7) 의 전 워드수를 TOTAL로 하고, 오버플로우 검출용 데이타를 Tmax로 하고, TOTAL과 Tmax와의 차이를 Dmin으로 하면, T점에서의 축적량(Tmt)는 Tmax와 같기 때문에 TOTAL-Dmin이 된다.
따라서, 해당 1련의 입력 신호에 대한 출력 신호는 T점에서 축적량(TmT : = StT+Tmin)분 늦은 시점에서 출력되어 끝난다.
T점에 있어서, 링 메모리(7)이 오버플로우 직전 상태로 되면, 이 이후의 입력 신호에 대해서는 링 메모리(7)이 언더플로우 직전 상태가 될 때까지, 입력 신호 삭제부(21)에 의해 무조건 삭제된다. 입력 신호 삭제부(21)에 의해 삭제 처리가 행해진 후에 있어서는 소음 삽입부(22)에 의해 소음이 삽입되지만, 제13도에는 삽입된 소음 부분이 생략되어 있다. 링 메모리(7)이 오버플로우 직전 상태가 된후(T점) , 프레임 데이타가 삭제되어 가고, 제34도에 도시한 바와 같이 U점에서 링 메모리 (7)이 언더플로우 직전 상태(축적량 TmU = Tmin)이 되었다. 이 경우에는 T점에서 U까지의 4개의 무음 구간 및 3개의 음성구간(d, e, f)로 이루어진 입력 신호가 삭제된다. 따라서, T점에서 U점까지의 입력 신호는 출력 신호로서는 나타나지 않는다.
U점의 뒤에 음성 구간(g)의 신호가 입력되면, 이 음성 구간에 대한 프레임 데이타는 피치 압축 신장 수단(23)에 의해 압축률 2/3로 압축(압축률 1/2인 압축에 대해서는 신장)된 후, 링 메모리(7)에 기록되어 간다. 음성 구간(g)에 대한 출력 신호(g)는 U점에서의 링 메모리(7)의 축적량(Tmin)분만큼 늦게 출력되어 시작된다.
상기 실시예에서는 입력 신호의 음성 구간과 무음 구간을 각 프레임의 평균 파워값(P)에 기초하여 판별하고 있지만, 각 프레임의 평균 진폭에 기초하여 판별하도록 하여도 좋다. 이 경우에는 제35도에 도시한 바와 같이, 제2도의 파워 계산부 (11) 대신에 프레임 단위로 평균 진폭값을 계산하는 평균 진폭 계산부(11A)가 설치되고, 임계값 메모리(13A)에는 A/D 변환부(2)의 양자화 비트수가 12비트일 때에는 예를 들면, 값 26인 임계값이 설정된다. 그리고, 평균 진폭 계산부(11A)에 의해 계산된 평균 진폭값과, 임계값 메모리(13A)의 임계값이 비교부(12A)에 의해 비교됨으로써, 음성 구간인지 무음 구간인지가 판별된다.
결국, 평균 진폭값이 임계값 이상이면 음성 구간으로 판별되고, 평균 진폭값이 임계값 미만이면 무음 구간으로 판별된다. 프레임 단위의 평균 진폭값(W)는 샘플링된 1프레임 내의 각 음성 신호의 진폭을 i0, i1,.......iN-1(단, N = 200)으로 하면, 다음식(3)에 기초하여 산출된다.
또한, 이 경우에 있어서도 다음과 같이 하여, 임계값을 변경하도록 하여도 좋다. 즉, 제35도에 점선으로 도시한 바와 같이, 평균 진폭 정상 상태 검출 및 임계값 갱신부(14A)를 설치한다. 평균 진폭 정상 상태 검출 및 임계값 갱신부(14A)는 평균 진폭 계산부(11A)로부터의 평균 진폭값(W)가 소정 프레임 수에 걸쳐서 일정한 상태였는지의 여부를 판별하여, 일정한 상태였을 때에는(정상 상태) 그때의 평균 진폭값(W)의 2배의 값을 임계값 메모리(13A)에 기록하여, 임계값을 갱신시킨다. 단, 갱신되는 임계값의 최대값은 소정값 예를 들면, 28으로 제한된다.
또한, 입력 신호의 음성 구간과 무음 구간과를 다음식(4)에서 나타내는 각 프레임의 음성 신호의 진폭 누적치(Wa)와 주어진 임계값에 기초하여 판별하도록 하여도 좋다.
또한, 입력 신호의 음성 구간과 무음 구간과를 각 프레임의 신호의 주기성을 검출하여 검출된 주기가 미리 정해진 음성 신호의 피치 주기 범위 내이면, 음성 구간이라고 판별하고, 검출된 주기가 미리 정해진 음성 신호의 피치 주기 범위 밖이면 무음 구간이라고 판별하도록 하여도 좋다.
이 경우에는 제36도에 도시한 바와 같이, 제2도의 파워 계산부(11) 대신에, 자기 상관법에 기초하여, 프레임 마다의 주기성을 검출하는 피치 주기 검출부(11B)가 설치되고, 임계값 메모리(13B)에는 음성 신호의 피치 주기 범위가 설정된다. 그리고, 피치 주기 검출부(11B)에서 검출된 주기와, 임계값 메모리(13B)에 설정된 음성 신호의 피치 주기 범위가 비교부(12B)에 의해 비교된다.
설정되는 음성 신호의 피치 주기 범위는 재생 속도에 따라 다른데, n배속 재생일 때에는 예를 들면, 66 X n(Hz) ∼ 320 X n(Hz)의 범위에 설정된다. 따라서, 2배속 재생시에는 음성 신호의 피치 주기 범위는 132Hz∼640Hz의 범위로 설정된다.
또한, 입력 신호의 음성 구간과 무음 구간을 각 프레임 신호의 파워 스펙트럼과 정상 상태의 파워 스펙트럼과 비교함으로써 판별하도록 하여도 좋다.
이 경우에는 제37도에 도시한 바와 같이, 제2도의 파워 계산부(11) 대신에, 프레임마다 소정의 1 또는 복수의 주파수 대역에 대한 파워 스펙트럼을 산출하는 파워 스펙트럼 산출부(11C)가 설치된다. 또한, 상기 소정의 1 또는 복수의 주파수 대역에 대한 정상 상태의 파워 스펙트럼이 파워 스펙트럼 기억부(13C)에 기억되어 있다.
파워 스펙트럼 기억부(13C)의 내용은 파워 스펙트럼 기억부(11C)에 의해 산출된 파워 스펙트럼의 변화 상태에 기초하여, 파워 스펙트럼 정상 상태 검출부 (14B)가 정상 상태인 것을 검출하였을 때에는, 검출된 정상 상태에서의 파워 스펙트럼으로 갱신된다.
입력 신호가 파워 스펙트럼 산출부(11C)로 전송되어 오면, 프레임마다 소정의 1 또는 복수의 주파수 대역에 대한 파워 스펙트럼이 산출된다. 그리고, 산출된 파워 스펙트럼과 파워 스펙트럼 기억부(13C)에 기억되어 있는 정상 상태의 파워 스펙트럼이 비교부(12C)에 의해 비교된다.
산출된 파워 스펙트럼이 정상 상태인 파워 스펙트럼에 비하여 변동하고 있다면, 그 프레임은 음성 구간으로 판별된다. 역으로, 산출된 파워 스펙트럼이 정상 상태의 파워 스택 트럼에 비하여 변동하고 있지 않다면, 그 프레임은 무음 구간으로 판별된다.
구체적으로는, 파워 스펙트럼 기억부(13C)에는 상기 소정의 1 또는 복수의 주파수 대역에 대한 정상 상태의 파워 스펙트럼에 기초하여, 상기 소정의 1 또는 복수의 주파수 대역에 대한 임계값이 기억된다. 그리고, 파워 스펙트럼 기억부 (13C)에 기억되어 있다. 파워 스펙트럼 산출부(11C)에 의해 산출된 상기 소정의 1 또는 복수의 주파수 대역에 대한 파워 스펙트럼과 파워 스펙트럼 기억부(13C)에 기억되어 있는 대응하는 임계값이 비교됨으로써, 입력 신호가 음성 구간인지 무음 구간인지가 판별된다.
예를 들면, 정상 상태인 파워 스펙트럼이 제38도에 도시되어 있는 바와 같이, 잡음만의 파워 스펙트럼인 상태가 된다. 또한, 잡음이 포함되어 있지 않은 음성의 파워 스펙트럼이 제39도에 도시되어 있는 상태로 되어 있다. 정상 상태에 있어서, 제38도의 파워 스펙트럼으로 도시된 잡음이 존재하는 경우에, 제39도에서 도시한 파워 스펙트럼을 갖는 음성 신호가 입력되면, 그 파워 스펙트럼은 제40도에도시되는 바와 같이, 양자의 파워 스펙트럼이 합성되게 된다.
따라서, 예를 들면, 정상 상태의 파워 스펙트럼에 있어서 파워가 비교적 작은 주파수 대역(fa 및 fb)에 대한 파워는 음성 구간의 파워 스펙트럼에 있어서는 대폭적으로 증가한다. 결국, 정상 상태인 파워 스펙트럼에 있어서 파워가 비교적 작은 1 또는 복수의 주파수 대역에서의 정상 상태의 파워와, 입력 신호의 파워 스펙트럼의 상기 1 또는 복수의 주파수 대역에서의 파워를 비교함으로써, 입력 신호가 음성 구간인지 무음 구간인지를 판별할 수 있다.
또한, 정상 상태의 잡음이 높은 주파수 대역의 잡음이라고 판명되어 있는 경우에는, 잡음의 영향이 적고 낮은 주파수 대역(예를 들면, 4KHz 이하의 주파수 대역)에 대한 파워 스펙트럼을 산출하고, 산출된 파워 스펙트럼이 소정의 임계값 이상인지의 여부에 따라서, 입력 신호가 음성 구간인지 무음 구간인지를 판별할 수도 있다.
또한, 각 프레임의 파워 평균값(P)와 임계값(Th)를 비교함으로써, 음성 구간과 무음 구간을 판별하는 경우에 있어서, 링 메모리(7)의 축적량에 기초하여 임계값(Th)를 변화시키게 하여도 좋다. 즉, 링 메모리(7)의 축적량이 적어지는 만큼, 바꿔 말하면, 링 메모리(7)의 비어있는 영역이 많아지는 만큼, 음성 구간의 누락부가 적어지도록 임계값(Th)는 적어진다. 이에 따라, 출력 음성이 자연음에 보다 가까워 진다.
결국, 제41도에 도시한 바와 같이, 임계값 조정 수단(51)을 설치한다. 임계값 조정 수단(51)은 링 메모리 축적량 상태 판별부(16)로부터 링 메모리(7)의 축적량을 얻는다. 그리고, 얻어진 링 메모리(7)의 축적량을 D/A 변환부(8)의 샘플링 주파수로 나눔으로써. 축적 시간(Tm)을 산출한다. 그리고, 산출된 축적 시간(Tm)에 기초하여 임계값(Th)를 결정하고 임계값 메모리(13)의 내용을 갱신한다.
보다 구체적으로 설명하면, 링 메모리 축적량 상태 판별부(16)으로부터 얻어진 링 메모리(7)의 축적량이 D/A 변환부(8)의 샘플링 주파수인 8000으로 나눔으로써, 축적 시간(Tm)이 구해진다. 그리고, 미리 작성된 축적 시간(Tm)에 대한 임계값 (Th)의 데이타에 기초하여, 축적 시간(Tm)에 대한 임계값(Th)가 구해진다.
다음의 표는 A/D 변환부(2)의 양자화 비트수가 12비트인 경우에서의 축적 시간(Tm)에 대한 임계값(Th)인 데이타의 한 예를 나타내고 있다.
표 1
또한, 각 프레임의 파워 누적치(Pa)와 임계값을 비교함으로써, 음성 구간과 무음 구간을 판별하는 경우, 각 프레임의 평균 진폭값(W)와 임계값을 비교함으로써, 음성 구간과 무음 구간을 판별하는 경우 각 프레임의 진폭 누적치(Wa)와 임계값을 비교함으로써, 각 프레임의 파워 스펙트럼과 임계값을 비교함으로써, 음성 구간과 무음 구간을 판별하는 경우에도 상기와 마찬가지로, 링 메모리(7)의 축적량에 기초하여, 임계값을 변화시키게 하여도 좋다.
또한, 링 메모리(7)의 축적량에 기초하여, 무음 구간의 삭제 개시점을 결정하기 위한 포즈 계속 길이(Tdel)을 변화시키도록 하여도 좋다. 즉, 링 메모리(7)의 축적량이 적어지는 만큼, 바꾸어 말하면, 링 메모리(7)의 비어있는 영역이 많아지는 만큼, 무음 구간의 삭제부가 적어지도록, 포즈 계속 길이(Tdel)이 길어진다. 이에 따라, 출력 음성이 자연음에 보다 가까워 진다.
결국 제41도에 도시한 바와 같이, 포즈 계속 길이 조정 수단(52)를 설치한다. 포즈 계속 길이 조정 수단(52)는 링 메모리 축적량 상태 판별부(16)에서 링 메모리(7)의 축적량을 얻는다. 그리고, 얻어진 링 메모리(7)의 축적량을 D/A 변환부 (8)의 샘플링 주파수로 나눔으로써 축적 시간(Tm)을 산출한다. 그리고, 산출된 축적 시간(Tm)에 기초하여, 포즈 계속 길이(Tdel)을 결정하여 포즈 계속 길이 설정 메모리(17)의 내용을 갱신한다.
보다 구체적으로 설명하면, 링 메모리 축적량 상태 판별부(16)에서 얻어진 링 메모리(7)의 축적량이 D/A 변환부(8)의 샘플링 주파수인 8000으로 나눔으로써, 축적 시간(Tm)이 구해진다. 그리고, 미리 작성된 축적 시간(Tm)에 대한 포즈 계속 길이(Tdel)의 데이타에 기초하여, 축적 시간(Tm)에 대한 포즈 계속 길이(Tdel)이 구해진다.
다음의 표는 VTR의 2배속 재생시에서의 축적 시간(Tm)에 대한 포즈 계속 길이(Tdel) 데이타의 한 예를 나타내고 있다.
표 2
제42도는 화속 변환부의 다른 예를 도시하고 있다. 제42도에 있어서, 제2도와 같은 것에는 같은 부호를 부여하고, 그 설명은 생략한다.
이 화속 변환부(100)에서는 제1 케이스 및 제3 케이스에 해당하는 경우의 처리가 제2도의 화속 변환부(6)에 의한 처리와 달라져 있다. 결국, 입력 신호가 음성 구간이고, 또한 링 메모리(7)이 오버플로우 직전 상태는 아니라고 판별되었을 때(제1 케이스) 또는, 입력 신호가 무음 구간이고 또한 무음 구간의 계속 길이가 설정된 포즈 계속 길이(Tdel) 미만이고, 또한 링 메모리(7)이 오버플로우 직전은 아니라고 판별되었을 때(제3 케이스)에는 다음과 같은 처리가 행해진다.
제1 케이스 및 제3 케이스에 해당하는 경우에는, 음성 신호는 멀티플렉서 (20)을 통하여 피치 압축 신장 수단(23)으로 전송된다. 피치 압축 신장 수단(23)은 가변 음성 제어(VSC)를 행하는 것으로, VTR의 재생 속도 배율을 n으로 하면, 입력 신호에 대하여 압축률 1/n이상의 압축률 α로 신장 압축 처리를 행한다. 압축률 α는 압축 신장률 조정 수단(102)에 의해 결정된다. 여기에서 이용되는 신장 압축법으로서는 예를 들면, 포인터 이동량 제어에 의한 중복 가산법(Pointer Interval Control Overlap and Add : PICOLA), TDHS(Time Domain Harmonic Scaling)법 등이있다. 피치 신장 압축 수단(23)에서 신장 압축 처리가 행해진 신호는 디멀티플렉서 (27)을 통하여 링 메모리(7)로 전송되고, 기록 클럭에 따라서 링 메모리(7)에 기록된다.
VTR의 2배속 재생시에 있어서는, A/D 변환부(2)의 샘플링 주파수(fsAD)는 16 KHz이고, D/A 변환부(8)의 샘플링 주파수(fsDA)는 8 KHz이다. 이 때문에, 음정은 처음으로 되돌아가서 출력한다.
종래의 일반적인 시간축 신장 압축에 있어서는, 2배속 재생시에는 압축률 1/2로 압축된다. 바꾸어 말하면, 2피치 주기가 1피치 주기로 추출된다. 이 때문에, 출력 음성은 표준 음성 속도의 2배속이 된다. 결국, 2배속 재생의 통상 재생에서는 출력 음성은 표준 음성 속도의 2배속이 된다. 단, 음정은 원래의 음정으로 된다.
이에 비하여, 제42도의 화속 변환부(100)에 설치된 상기 피치 신장 압축 수단(23)에서는 압축 신장률 조정 수단(102)에 의해 구해진 1/2 이상의 압축률(α)로 신장 압축 처리가 행해진다. 압축 신장률 조정 수단(102)는 링 메모리(7)의 단위 시간마다의 축적량의 변화량에 기초하여, 링 메모리(7)로의 기록량이 판독량에 비하여 적어지는 만큼, 압축률이 커지도록, 결국 음성 재생 속도가 늦어지도록, 그리고 링 메모리(7)로의 기록량이 판독량에 비하여 많아지는 만큼, 압축률이 적어지도록, 결국 음성 재생 속도가 빨라지도록 압축률(α)를 결정한다.
결국, 링 메모리 축적량 상태 판별부(16)은 타이머 등의 일정 시간 측정 수단(101)에 의해 계측되는 일정 시간마다, 업·다운 카운터(9)로부터 전송되어 오는 링 메모리(7)의 축적량을 압축 신장률 조정 수단(102)로 전송한다. 압축 신장률 조정 수단(102)는 금회 전송되어온 축적량에서 전회 전송되어온 축적량을 감산함으로써, 단위 시간당 축적량의 변화량을 구한다. 그리고, 구해진 단위 시간당 축적량의 변화량을 D/A 변환부(8)의 샘플링 주파수로 나눔으로써, 단위 시간당 신장 시간의 변화분(△T)를 산출한다. 그리고, 산출된 단위 시간당 신장 시간의 변화분(△T)에 기초하여 압축률(α)를 결정한다.
보다 구체적으로 설명하면, 압축 신장률 조정 수단(102)에는 예를 들면, 2.0초마다 링 메모리(7)의 축적량이 전송되어 온다. 금회 전송되어온 축적량에서 전회 전송되어온 축적량을 감산함으로써 단위 시간당 축적량의 변화량이 구해진다. 다음에, 단위 시간당 축적량의 변화량이 D/A 변환부(8)의 샘플링 주파수인 8000으로 나눔으로써, 신장 시간의 변화분(△T)가 구해진다. 그리고, 미리 작성된 신장 시간의 변화분에 대한 압축률 데이타에 기초하여, 신장 시간의 변화분(△T)에 대한 압축률(α)가 구해진다.
다음의 표는 VTR의 2배속 재생시에서의 신장 시간의 변화분(△T)에 대한 압축률(α)의 데이타의 한 예를 나타내고 있다. 이 표에 있어서, V는 압축률에 대응하는 음성 재생 속도를 나타내고 있다.
표 3
이 표에서 알 수 있는 바와 같이, 신장 시간의 변화분(△T)가 적어지는 만큼, 즉 단위 시간당 링 메모리(7)의 축적량 변화(판독량에 대한 기록량)이 적어지는 만큼, 압축률(α)는 커지고 음성 재생 속도가 늦어진다. 역으로, 판독량에 대한 기록량이 많아지는 만큼 압축률(α)는 작아지고 음성 재생 속도가 빨라진다. 따라서, 음성 구간에서의 음성의 누락부를 가능한 한 적게 하면서, 음성 구간에서의 음성에 대한 음성 재생 속도를 늦어지게 할 수 있다.
압축률(α)가 1/2 이상인 압축률 예를 들면, 상기 표3에는 없지만, 설명의 편의상, 2/3으로 결정되었다고 하면, 3피치 주기가 2피치 주기로 추출된다. 이때문에, 출력 음성은 표준 음성 속도의 3/2배속이 된다. 이 경우도 음정은 원래의 음정이 된다. 이와 같이, 압축률 2/3로 압축된 경우에는 압축률 1/2인 경우에 비하여, 2/3 - 1/2 = 1/6 만큼 신호가 신장되게 된다. 이 신장분이 링 메모리(7)의 축적량이 된다.
제42도의 화속 변환부(100)을 이용한 경우에도, 무음 구간과 음성 구간과의 판정 방법으로서는 상술한 여러가지의 것을 이용할 수 있다.
제43도는 화속 변환부의 또다른 예를 도시하고 있다. 제43도에 있어서, 제2도와 같은 것에는 동일한 부호를 부여하고, 그 설명을 생략한다.
이 화속 변환부(200)에서는 제1 케이스 및 제3 케이스에 해당하는 경우의 처리가 제2도의 화속 변환부(6')에 의한 처리와 달라져 있다.
제1 케이스 또는 제3 케이스에 해당하는 경우에는, 음성 신호는 멀티플렉서 (20)을 통하여 피치 압축 신장 수단(23)으로 전송된다. 피치 압축 신장 수단(23)은 가변 음성 제어(VSC)를 행하는 것으로, VTR의 재생 속도 배율을 n으로 하면, 입력 신호에 대하여, 압축률 1/n이상의 압축률(α)로 신장 압축 처리를 행한다. 압축률(α)는 압축 신장률 조정 수단(201)에 의해 결정된다. 여기에서 이용되는 신장 방법으로서는 예를 들면, 포인터 이동량 제어에 의한 중복 가산법(Pointer Interval Control Overlap and Add : PICOLA), TDHS(Time Domain Harmonic Scaling)법 등이 있다. 피치 신장 압축 수단(23)에서 신장 압축 처리가 행해진 신호는 디멀티플렉서 (27)을 통하여 링 메모리(7)로 전송되어, 기록 클럭에 따라서 링 메모리(7)에 기록된다.
VTR의 2배속 재생시에 있어서는 A/D 변환부(2)의 샘플링 주파수(fsAD)는 16 KHz이고, D/A 변환부(8)의 샘플링 주파수(fsDA)는 8 KHz이다. 이 때문에, 음정은 처음으로 되돌아가서 출력된다.
종래의 일반적인 시간축 신장 압축에 있어서는, 2배속 재생시에는 압축률 1/2로 압축된다. 바꾸어 말하면, 2피치 주기가 1피치 주기로 추출된다. 이 때문에 출력 음성은 표준 음성 속도의 2배속이 된다. 결국, 2배속 재생의 통상 재생에서는출력 음성은 표준 음성 속도의 2배속이 된다. 단, 음정은 원래의 음정으로 된다.
이에 비하여, 제43도의 화속 변환부(200)에 설치된 상기 피치 신장 압축 수단(23)에서는, 압축률(α)는 유저에 의해 조작부(도시 생략)를 이용하여 설정된 모드 및 링 메모리(7)의 축적량의 변화에 기초하여, 압축 신장률 조정 수단(201)에 의해 결정된다. 단, 압축률(α)는 1/2 이상의 값이다.
조작부에 의해 설정되는 모드의 종류로는 프로그램을 선택하기 위한 프로그램 설정 모드와, 프로그램 모드에 의해 설정된 프로 그램에 대하여 압축률(α)를 고정 시키는지 변동시키는지를 설정하는 고정 변동 설정 모드가 있다.
다음의 표는, VTR 의 2배속 재생시에 있어서, 프로그램 설정 모드에 의해 설정되는 프로그램의 예와, 각 프로그램에 대하여 고정 모드가 설정되었을 때의 각 프로그램에 대한 음성 재생 속도(압축률)과, 각 프로그램에 대하여 변동 모드가 설정 되었을 때의 각 프로그램에 대한 음성 재생 속도(압축률)의 변동 범위의 한 예를 각각 나타내고 있다.
표 4
각 프로그램에 대한 고정 모드에 대한 음성 재생 속도 및 변동 모드에 대한 음성 재생 속도 범위는 다음과 같은 고려 방법에 기초하여 설정되어 있다. 즉, 프로그램 내용에 따라 발성(發聲) 속도가 달라져 있다. 예를 들면, 드라마, 뉴스, F1 중계 및 장기 프로그램에서는 발성 속도는 F1 중계가 가장 빠르고, 뉴스, 드라마, 장기 대국의 순서로 발성 속도가 늦어진다. 이와 같은, 발성 속도의 차이는 단위 시간당 모라수에 기인하고 있다. 모라(mora)라는 것은 음률음에 있어서, 강세나 억양 등의 단위가 되는 음의 상대적 길이를 말하며, 1모라는 단모음을 포함하는 1음절의 길이에 상당한다.
발화자(發話者)에 따라 변동은 있지만, 각 프로그램의 단위 시간당 모라수의 평균값은 다음과 같다.
F1 중계 : 12모라/초
뉴스 : 8모라/초
드라마 : 5모라/초
장기 대국 : 3모라/초
고정 모드가 설정되어 있을 때에는, 설정 프로그램에 대하여 고정 모드에서의 음성 재생 속도에 대한 압축률이 압축률(α)로서 결정된다. 예를 들면, 뉴스 프로그램이 설정되고, 또한 고정 모드가 설정되어 있을 때에는 압축률(α)는 1.4 배속에 대응하는 압축률 예를 들면 0.714로 결정된다. 이와 같이, 발성 속도가 빠른 프로그램일수록 압축률이 작아지기(음성 재생 속도가 빠르다) 때문에, 다음과 같은 잇점이 있다.
결국, 발성 속도가 빠른 프로그램일수록 링 메모리(7)이 오버플로우 직전 상태가 되기 쉬워지기 때문에, 음성 재생 속도가 2배속에 가까워지도록 압축률이 결정된다. 역으로, 발성 속도가 늦은 프로그램일수록, 음성 재생 속도가 1배속에 가까워지도록 압축률이 결정된다. 따라서, 음성 재생 속도는 2배속 이하의 속도로서, 또한 원래의 발성 속도에 따르는 속도가 되어, 보다 자연스러운 재생음이 얻어진다.
변동 모드가 설정되어 있는 경우에는 설정 프로그램에 대해서의 변동 모드에서의 음성 재생 속도 범위에 대한 압축률의 범위 내에서 압축률(α)가 다음과 같이 결정된다. 압축 신장률 조정 수단(201)은 링 메모리(7)의 축적량이 적어지는 만큼 압축률이 커지도록, 결국 음성 재생 속도가 늦어지도록, 그리고 링 메모리(7)의 축적량이 많아지는 만큼 압축률이 적어지도록, 결국 음성 재생 속도가 빨라지도록 압축률(α)를 결정한다.
결국, 제1 케이스 또는 제2 케이스에 해당한다고 판별되었을 때에는, 압축 신장률 조정 수단(201)은 링 메모리 축적량 상태 판별부(16)으로부터 링 메모리(7)의 축적량을 얻는다. 그리고, 얻어진 링 메모리(7)의 축적량을 D/A 변환부(8)의 샘플링 주파수로 나눔으로써, 축적 시간(Tm)을 산출한다. 산출된 축적 시간(Tm)에 기초하여, 압축률(α)를 결정한다.
보다 구체적으로 설명하면, 링 메모리 축적량 상태 판별부(16)으로부터 얻어진 링 메모리(7)의 축적량이 D/A 변환부(8)의 샘플링 주파수인 8000으로 나눔으로써, 축적 시간(Tm)이 구해진다. 그리고, 각 프로그램마다 미리 작성된 축적 시간에 대응하는 압축률 데이타에 기초하여, 축적 시간(Tm)에 대응하는 압축률(α)가 구해진다.
다음의 표는 VTR의 2배속 재생시에서의 F1 중계의 프로그램에 대한 축적 시간(Tm)에 대한 압축률(α)의 데이타의 한 예를 나타내고 있다. 이 표에 있어서, V는 압축률에 대응하는 음성 재생 속도를 나타내고 있다.
표 5
이 표에서 알 수 있듯이, 링 메모리(7)의 축적 시간(Tm)이 작아질수록, 압축률(α)는 커지고, 음성 재생 속도가 늦어진다. 역으로, 링 메로리(7)의 축적 시간 (Tm)이 커질수록 압축률(α)는 작아지고, 음성 재생 속도가 빨라진다. 따라서, 변동 모드가 설정되어 있는 경우에는 고정 모드가 설정된 경우에 기술한 상기의 이점에 부가하여, 입력 신호의 음성 구간에서의 음성의 누락부를 가능한 한 작게 할 수 있다는 이점이 있다.
상기 방법에서는 음성의 누락부를 가능한 한 적어지도록 하고 있지만, F1 중계, 빠른 음성의 뉴스에서는, 고령자는 들을수 없는 경우가 발생할 수 있다. 이와 같은 경우에는 음성의 누락부를 많게하여, 예를 들면, 축적 시간에 대한 음성 재생 속도 범위를 1.0 ∼ 1.3배속으로 하여, 음성을 느리게 하여도 좋다. 이와 같이 하면, 음성의 누락은 많아지지만, 재생되는 음성 속도가 느려져서, 고령자에게도 음성이 듣기 쉬워진다.
압축률(α)가 1/2 이상의 압축률 예를 들면, 상기 표5에는 없지만, 설명의 편의상, 2/3로 결정되었다고 하면, 3피치 주기가 2피치 주기로 추출된다. 이 때문에, 출력 음성은 표준 음성 속도의 3/2 속도가 된다. 이 경우도 음정은 원래 상태대로이다. 이와 같이, 압축률 2/3으로 압축된 경우에는 압축률 1/2인 경우에 비하여 2/3 - 1/2 = 1/6만큼, 신호가 신장되게 된다. 이 신장분이 링 메모리(7)의 축적량이 된다.
제43도의 화속 변환부(200)을 이용한 경우에도 무음 구간과 음성 구간과의 판정 방법으로서는 상술한 여러가지의 것을 이용할 수 있다.
이상은 입력 신호가 아날로그 신호인 경우에 대하여 설명하였지만, 입력 신호가 디지탈 데이타인 경우에도 본 발명을 적용할 수 있다. 예를 들면, IC 메모리, 자기 디스크, 디지탈 통신 회선 등으로부터 압축된 디지탈 음성 신호가 전송되어온 경우에는 압축된 디지탈 음성 신호가 신장되어 PCM 음성 신호로 변환되고, 얻어진 PCM 음성 신호가 버퍼에 일단 격납된다. 그 후, 설정된 재생 속도 배율에 따르는 속도로 PCM 음성 데이타가 버퍼로부터 판독되어 제1도의 프레임 메모리(5)로 전송된다.
제44도는 본 발명의 제2 실시예를 도시하고 있다.
제44도는 화속 변환 장치의 전체적인 구성을 도시하고 있다.
비디오 테이프로부터 판독된 음성 신호는 필터 앰프(310)에 입력된다. 필터 앰프(310)은 음성 신호 중 불 필요한 고역 성분이나 잡음을 제거함과 동시에, 이것을 소정 강도의 신호로 하여 출력한다. 필터 앰프(310)의 출력은 A/D 변환기(312)로 입력된다. A/D 변환기(312)는 입력되어 오는 아날로그 음성 신호를 소정의 샘플링 주파수(예를 들면, 8KHz ∼ 72KHz)로 샘플링하여, 소정의 양자화 비트(예를 들면, 11비트)의 디지탈 음성 데이타로 변환한다.
이 디지탈 음성 데이타는 프레임 메모리(314)에 기억된다. 이 프레임 메모리 (314)에는 무음 프레임 판정부(316)이 접속되어 있다. 무음 프레임 판정부(316)은 프레임 메모리(314)에 기억되는 음성 신호에 대하여 1 프레임마다 그 평균 파워를 산출한다. 그리고, 산출된 평균 파워를 소정의 임계값과 비교하여, 임계값 이하인 경우에 그 프레임을 무음 프레임으로 판정한다. 1프레임은 여기에서는 200개의 샘플링 데이타(25msec)로 구성되어 있다.
프레임 메모리(314)로부터 판독된 음성 데이타는 화속 변환부(318)로 입력된다. 화속 변환부(318)에서는 무음 프레임 판정부(316)의 판정 결과에 기초하여 무음 구간의 판정 처리, 무음 구간의 삭제 처리, 음성 재생과 화상 재생의 시간차에 따라서 음성 구간의 음성 신호의 압축 처리(화속 변환 처리) 등이 행해진다.
화속 변환부(318)로부터 출력되는 시리얼 음성 데이타는 링 메모리(320)으로 전송되어 기록된다. 결국, 링 메모리(320)의 기록 어드레스가 순차 인크리먼트 되면서, 링 메모리(320)에 입력되는 음성 데이타가 링 메모리(320)에 순차 기록된다. 기록 어드레스가 최종 어드레스에 이르면, 선두 어드레스로 기록 어드레스가 되돌아 간다. 링 메모리(320)으로서는 예를 들면, 256 K비트의 DRAM이 이용된다.
링 메모리(320)의 용량을 256 K비트로 한다. 또한, 링 메모리(320)의 판독 클럭의 주파수 및 D/A 변환기(322)의 샘플링 주파수를 8KHz로 한다. 그리고, A/D 변환기(312)의 양자화 비트수를 11비트로 하면, 다음식(5)에 의해 약 2.9초분의 음성 데이타를 링 메모리(320)에 축적하는 것이 가능해 진다.
255000 / (11 × 8000) ≒ 2.9 ‥‥ (5)
링 메모리(320)으로부터 판독된 데이타는 파라렐 데이타로서 D/A 변환기 (322)로 공급되고, 여기에서 아날로그 신호로 변환된다. 이 D/A 변환기(322)의 출력은 필터 앰프(324)를 통하여 스피커 등으로 공급된다. 이렇게 함으로써 음성 신호의 재생이 행해진다.
변환 제어부(326)은 링 메모리(320)으로의 음성 데이타의 기록 어드레스 및 링 메모리(320)으로부터의 음성 데이타의 판독 어드레스를 감시한다. 그리고, 재생화상과 재생 음성의 시간적인 차이를 추정하여 화속 변환부(318)에 의해 행해지는 압축 처리에 이용되는 압축률을 제어한다.
프레임 메모리(314), 무음 프레임 판정부(316), 변환 제어부(326)은 1개의 DSP(Digital Signal Processor)에 의해 구성되어 있다.
화속 변환부(318)에 의한 무음 구간 판정 처리는 다음과 같이 하여 행해진다. 제45도에 도시한 바와 같이, 무음 프레임 판정부(316)에 의해 판정된 무음 프레임이 40프레임 이상 연속하는 경우에 40프레임째의 무음 프레임의 개시점으로 부터 다음에 도래하는 최초의 음성 프레임의 개시점까지의 구간을 무음 구간으로 한다. 무음 구간으로 판정된 음성 데이타는 삭제된다.
무음 프레임이 40프레임 이상 연속하는 경우에 있어서 40프레임째의 무음 프레임의 개시점으로부터 무음 구간으로서 있는 것은, 1초 이하의 끊어짐을 생략하면 듣기 곤란해지고, 1초 이상의 음성의 끊어짐은 이것을 1초로 단축하여도 듣기 곤란해지는 것은 아니기 때문이다. 또한, 무음 프레임 판정부(316)에 있어서, 무음 구간의 판정 처리를 행하게 하여도 좋다.
화속 변환부(318)에 의한 화속 변환 처리에 대하여 설명한다. 2배속 재생된 음성은 단순히 말을 빨리하게 될 뿐만 아니라, 주파수가 2배로 되어버리기 때문에, 모음의 식별이 곤란해진다. 그래서, 음정을 원래의 표준 음정으로 되돌리기 위하여, 출력되는 음성 데이타의 주파수가 표준 주파수로 되돌려진다. 단, 2배속 재생시에 있어서 출력되는 음성 데이타의 주파수를 표준 주파수로 되돌리는 경우에는, 기본적으로는 입력 음성 신호를 1/2로 압축할 필요가 있다. 결국, 입력 음성 신호를 피치 주기(5 ∼ 20ms)로 분할하여, 2피치 주기를 1피치 주기로 추출할 필요가 있다. 이와 같이 하여 얻어진 음성은, 음정은 원래대로 되돌려져 있지만, 2배의 스피드로 말을 빨리하게 되어버린다.
본 실시예에서는 화속 변환부(318)에 의해 무음 구간이 삭제된다. 따라서, 무음 구간의 삭제에 따라서 발생된 시간에 음성 구간의 재생을 행할 수 있기 때문에 추출 비율을 작게 할 수 있다. 결국, 압축률을 크게 할 수 있다.
즉, 제46도에 도시한 바와 같이, 2배속 재생에 따라서 얻어진, 주파수가 2배의 음성 신호가 파형(A, B, C, D, E)와 같이 하여 재생된 상태가 된다. 화속 변환부(316)에서는 무음 구간을 삭제할 수 있기 때문에, 음성 구간의 입력 음성 데이타가 1/2보다 큰 압축률 2/3 ∼ 3/4로 압축된다. 이에 따라, 화속 변환부(316)으로부터 출력되는 파형은 파형(A', B', C', D', E')와 같이, 그 길이가 입력 파형에 비하여 신장되어져 있다. 그리고, 이 출력 파형에서의 주파수가 원래의 표준 주파수로 되돌려진다.
이에 따라, 2배속 재생시의 출력 음성 파형을 표준 음성 속도의 1.3 ∼ 1.5배 정도로 억제할 수 있고, 2배속 재생시에 있어서도 듣기 쉬운 출력 음성이 얻어진다.
화속 변환부(316)에 의한 압축 처리에 있어서 채용되는 압축률에 대하여 설명한다.
입력 음성 신호에 어느정도 무음 구간이 포함되어 있는지는 일반적으로, 미리 알 수는 없다. 예를 들면, 뉴스나 일기 예보와 같은 보도 프로그램은 무음 구간이 비교적 적고, 드라마나 행사의 중계 등은 무음 구간이 비교적 많이 포함되어 있다. 따라서, 최적의 압축률은 일률적으로 정할 수 없고, 내용에 따라서 적당한 값을 선택하는 것이 바람직하다.
본 실시예에서는 링 메모리(320)의 여유 시간에 기초하여, 변환 제어부(326)이 압축률을 제어한다. 링 메모리(320)은 어드레스를 순차 인크리먼트하여 최종 어드레스에 이른 경우에는 선두 어드레스로 되돌려서, 기록 및 판독을 행하는 것이다. 링 메모리(320)의 전제의 어드레스에 데이타가 기록된 후는 입력되어 오는 음성 신호를 이미 기록되어 있는 데이타에 대신하여 기록함으로써 항상 소정 시간 분의 음성 신호가 링 메모리(320)에 기록된다.
기록량의 총합에서 판독량의 총합을 감산한 값[링 메모리(320)의 축적량]이 링 메모리(320)의 용량 내에 있다면, 문제는 발생하지 않는다. 그렇지만, 링 메모리(320)의 축적량이 링 메모리의 용량을 초과하면, 기록 위치가 판독 위치를 초과하여 버려서, 링 메모리(320)에 기억된 음성 데이타 중 판독되지 않는 부분이 발생되어 버린다.
결국, 제47도에 있어서, 링 메모리(320)의 기록 위치 및 판독 위치는 왼쪽 방향으로 이동한다. 단, 양자의 이동 속도는 반드시 일치하는 것은 아니다. 이 이유는 링 메모리(20)로부터의 판독 속도가 일정한 것에 비하여, 링 메모리(320)으로의 기록 속도는 무음 구간의 음성 구간에 대한 비율 및 압축률에 따라서 변화하기 때문이다.
재생 개시 직후에 있어서는, 기록된 데이타가 즉시 판독되기 때문에, 판독위치는 기록 위치의 바로 후방 위치에 있다. 무음 구간이 많을수록, 또한 압축률이 클수록 기록 속도는 늦어진다. 역으로, 무음 구간이 적을수록, 또한 압축률이 작을수록 기록 속도는 빨라진다. 기록 속도가 빨라지고, 기록량이 판독량보다 링 메모리(320)의 용량분이 많아지면, 기록 위치가 판독 위치를 추월하여 버린다. 이와 같이 되면, 링 메모리(320)에 기억된 음성 데이타 중, 판독되지 않는 부분이 발생하여 버린다.
그래서, 본 실시예에서는 이와 같은 사태가 발생하지 않도록, 제47도에 도시한 바와 같이, 링 메모리(320)의 축적량에 기초하여 구해지는 링 메모리(320)의 여유 시간에 따라서 압축률이 제어된다.
즉, 표6에 나타낸 바와 같이, 2배속 재생시에는 표준 음성 속도에 대한 출력 음성 속도의 배율이 1∼2 까지의 8단계로 변화하도록, 압축률이 여유 시간에 따라서 8단계로 변화되어 진다. 또한, 3배속 재생시에는 표준 음성 속도에 대한 출력 음성 속도의 배율이 1∼3 까지의 8단계로 변화하도록, 압축률이 여유 시간에 따라서 8단계로 변화되어 진다.
표 6
이에 따라, 무음 구간이 많은 경우에는 무음 구간이 삭제됨으로써 여유 시간을 많게 할 수 있기 때문에, 출력 음성 속도가 표준 음성 속도에 가까운 속도가 된다. 한편, 무음 구간이 적을때에는 음성 구간이 삭제되지 않도록 출력 음성 속도가 표준 음성 속도의 2배에 가까운 속도로 된다.
또한, 음성 데이타를 압축 처리하는 수단 및 무음 구간을 삭제하는 수단은 링 메모리(320)의 후단에 설치하도록 하여도 좋다. 이 경우에는 링 메모리(320)으로부터의 판독 속도가 제어된다.
또한, 1배속 재생시에 있어서는, 무음 구간의 음성 데이타를 삭제하고, 음성 구간의 음성 데이타를 신장함으로써, 빨리 말하는 음성을 천천히 변환할 수 있다. 이와 같이 하면, 빨리 말하는 음성을 노인에게도 듣기 쉬운 음성으로 할 수 있다.
제1도는 본 발명의 제1 실시예의 화속 변환 장치의 전체적인 구성을 도시한 블럭도.
제2도는 화속 변환부의 구성을 도시한 블럭도.
제3도는 PICOLA를 이용하여 입력 신호를 압축률 2/3로 압축하는 방법을 도시한 설명도.
제4도는 고정 프레임 단위에서, 입력 신호를 압축률 2/3로 압축하는 방법을 도시한 설명도.
제5도는 고정 프레임 단위에서, 입력 신호를 압축률 2/3로 압축하는 방법의 다른 예를 도시한 설명도.
제6도는 파형 합성 처리부에 의한 파형 합성 방법을 설명하기 위한 설명도.
제7도는 파형 합성 처리부에 의한 파형 합성 방법의 다른 예를 설명하기 위한 설명도.
제8도는 추출 처리부에 의해 행해지는 추출 처리 방법을 설명하기 위한 설명도.
제9도는 추출 처리부에 의해 행해지는 추출 처리 방법의 다른 예를 설명하기 위한 설명도.
제10도는 추출 처리부에 의해 행해지는 추출 처리 방법의 또다른 예를 설명하기 위한 설명도.
제11(a),(b)도는 화속 변환부에 의한 처리 수순을 도시한 플로우차트.
제12도는 화속 변환부에 의한 처리 수순의 변화예를 도시하고, 제11b도에 상당하는 플로우차트.
제13도는 제11(a)도의 스텝(10)의 처리와 치환 가능한 처리를 설명하기 위한 설명도.
제14도는 제11(a)도의 스텝(10)의 처리와 치환 가능한 처리의 다른 예를 설명하기 위한 설명도.
제15도∼제17도는 제11(a)도의 스텝(9)의 처리와 치환 가능한 처리를 설명하기 위한 설명도.
제18도는 제11(a)도의 스텝(9)의 처리로서 제15도∼제17도를 이용하여 설명한 처리를 채용한 경우에, 제11(a)도의 스텝(10)의 처리와 치환 가능한 처리를 설명하기 위한 설명도.
제19도는 제11(a)도의 스텝(9)의 처리로서 제15도∼제17도를 이용하여 설명한 처리를 채용한 경우에, 제11(a)도의 스텝(10)의 처리와 치환 가능한 처리의 다른 예를 설명하기 위한 설명도.
제20(a),(b)도는 2배속 재생시의 입력 신호와 출력 신호와의 관계를 도시한 것으로, 특히 무음 구간의 입력 신호가 삭제되는 모양을 도시한 타임차트.
제21도∼제30도는 링 메모리(7)로의 데이타 기록 개시점, 링 메모리(7)로부터의 데이타 판독 개시점 및 제20도의 점(A∼H)에서의 링 메모리(7)의 상태를 각 각 도시한 모식도.
제31도는 2배속 재생시의 입력 신호와 출력 신호와의 관계를 도시한 것으로. 특히 오버플로우 직전 상태가 되었을 때에, 입력 신호가 삭제되는 모양을 도시한 타임차트.
제32도∼제34도는 제31도의 각 점(S∼U)에서의 링 메모리(7)의 상태를 각각 도시한 모식도.
제35도는 음성 구간과 무음 구간을 판별하기 위한 회로의 변형예를 도시한 것으로, 제2도에 상당하는 블럭도.
제36도는 음성 구간과 무음 구간을 판별하기 위한 회로의 다른 변형예를 도시한 것으로, 제2도에 상당하는 불럭도.
제37도는 음성 구간과 무음 구간을 판별하기 위한 회로의 또 다른 변형예를 도시한 것으로, 제2도에 상당하는 블럭도.
제38도는 정상 상태의 파워 스펙트럼을 도시한 그래프.
제39도는 잡음을 포함하지 않은 음성의 파워 스펙트럼을 도시한 그래프.
제40도는 음성 구간의 파워 스택트럼을 도시한 그래프.
제41도는 임계값 조정 수단 및 포즈(pause) 계속 길이 조정 수단이 부가된 화속 변환부를 도시한 블럭도.
제42도는 화속 변환부의 다른 예를 도시한 블럭도.
제43도는 화속 변환부의 또 다른 예를 도시한 블럭도.
제44도는 본 발명 제2 실시예의 화속 변환 장치의 전체 구성을 도시한 블럭도.
제45도는 무음 프레임과 무음 구간과의 관계를 도시한 모식도.
제46도는 음성 입력 파형과 음성 출력 파형을 설명하기 위한 모식도.
제47도는 링 메모리의 여유 시간을 설명하기 위한 모식도.
도면의 주요부분에 대한 부호의 설명
1 : ALC앰프 2 : A/D변환부
3 : 레벨 검출부 4 : DSP
5, 314 : 프레임 메모리 6, 318 : 화속 변환부
7, 320 : 링 메모리 8, 322 : D/A변환부
9 : 업·다운 카운터 10 : 앰프
310, 324 : 필터 앰프 312 : A/D 변환기
316 : 무음 프레임 판정부 326 : 변환 제어부

Claims (28)

  1. 입력 음성 신호를 화속 변환 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 데이타를 일정 속도로 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고,
    상기 화속 변환 처리 수단
    은 입력 음성 신호가 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고 있는
    것을 특징으로 하는 화속 변환 장치,
  2. 입력되는 아날로그 음성 신호를 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링하는 A/D 변환 수단,
    A/D 변환 수단으로부터 출력된 음성 신호가 입력되는 프레임 메모리,
    프레임 메모리에 소요수(所要數)의 음성 신호가 입력될 때마다, 그들 음성신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리, 1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여 링 메모리로부터 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호
    처리 수단
    을 구비하고 있는
    것을 특징으로 하는 화속 변환 장치.
  3. 입력되는 디지탈 음성 신호가, 설정된 재생 속도 배율에 따른 속도로 기록되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고 있는
    것을 특징으로 하는 화속 변환 장치.
  4. 제1항에 있어서,
    상기 신호 처리 수단은,
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여,
    (a) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닌 제1 모드,
    (b) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 제2 모드,
    (c) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태가 아닌 제3모드,
    (d) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태인 제4 모드,
    (e) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태가 아닌 제5모드, 및
    (f) 입력 음성이 무음 구간이고 또는 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태인 제6 모드
    중의 어떤 모드인지를 판별하는 모드 판별 수단과,
    제1 모드 또는 제3 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 음성 신호에 대하여, 압축률 1/n보다 큰 압축률로 압축 신장 처리를 행하는 제1 처리 수단,
    제2 모드 또는 제4 모드로 판별되었을 때에, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호를 삭제하는 제2 처리 수단,
    제5 모드로 판별되었을 때에, 무음 구간의 음성 신호를 삭제하는 제3 처리 수단, 및
    제6 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α(단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리를 행하는 제4 처리 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  5. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 파워 평균치를 산출하는 수단, 및
    산출된 파워 평균치와 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  6. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 파워 누적치를 산출하는 수단,및
    산출된 파워 누적치와 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  7. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 진폭 평균치를 산출하는 수단, 및
    산출된 진폭 평균치와 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  8. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 진폭 누적치를 산출하는 수단, 및
    산출된 진폭 누적치와 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  9. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 주기성을 검출하는 검출 수단, 및
    검출된 주기에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  10. 제1항에 있어서,
    상기 구간 판별 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호의 소정의 1 또는 복수의 주파수 대역에 대한 파워 스펙트럼을 산출하는 산출 수단, 및
    산출된 파워 스펙트럼과 주어진 임계값에 기초하여, 입력 음성이 음성 구간인지 무음 구간인지를 판별하는 판별 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  11. 입력 음성 신호를 화속 변한 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 데이타를 일정 속도로 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고
    상기 화속 변환 처리 수단은,
    입력 음성 신호가 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성 신호가 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간 당 변화량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  12. 입력되는 아날로그 음성 신호를 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링하는 A/D 변환 수단,
    A/D 변환 수단으로부터 출력된 음성 신호가 입력되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다. 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여, 링 메모리로부터 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  13. 입력되는 디지탈 음성 신호가, 설정된 재생 속도 배율에 따른 속도로 기록되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  14. 제11항에 있어서,
    상기 신호 처리 수단은,
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여,
    (a) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가아닌 제1 모드,
    (b) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 제2 모드,
    (c) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태가 아닌 제3 모드,
    (d) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태인 제4 모드,
    (e) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태가 아닌 제5 모드, 및
    (f) 입력 음성이 무음 구간이고 또는 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태인 제6 모드,
    중의 어떤 모드인지를 판별하는 모드 판별 수단과,
    제1 모드 또는 제3 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량의 단위 시간당 변화량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 제1 처리 수단,
    제2 모드 또는 제4 모드로 판별되었을 때에, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호를 삭제하는 제2 처리 수단,
    제5 모드로 판별되었을 때에, 무음 구간의 음성 신호를 삭제하는 제3 처리 수단, 및
    제6 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α(단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리를 행하는 제4 처리 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  15. 입력 음성 신호를 화속 변환 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 데이타를 일정 속도로 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고.
    상기 화속 변환 처리 수단은,
    입력 음성 신호가, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성 신호가 음성 구간이고 또한 링 메모리가오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  16. 입력되는 아날로그 음성 신호를 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링하는 A/D 변환 수단,
    A/D 변환 수단으로부터 출력된 음성 신호가 입력되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여, 링 메모리로부터 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단
    을 구비하고,
    상기 화속 변환 처리 수단은,
    입력 음성 신호가, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  17. 입력되는 디지탈 음성 신호가, 설정된 재생 속도 배율에 따른 속도로 기록되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대용하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  18. 제15항에 있어서,
    상기 신호 처리 수단은,
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여,
    (a) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닌 제1 모드,
    (b) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 제2 모드,
    (c) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태가 아닌 제3모드,
    (d) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태인 제4 모드,
    (e) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태가 아닌 제5 모드, 및
    (f) 입력 음성이 무음 구간이고 또는 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태인 제6 모드
    중의 어떤 모드인지를 판별하는 모드 판별 수단과,
    제1 모드 또는 제3 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하는 제1 처리 수단,
    제2 모드 또는 제4 모드로 판별되었을 때에, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호를 삭제하는 제2 처리 수단,
    제5 모드로 판별되었을 때에, 무음 구간의 음성 신호를 삭제하는 제3 처리 수단, 및
    제6 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α(단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리를 행하는 제4 처리 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  19. 입력 음성 신호를 화속 변환 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    입력 음성 신호가, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성 신호가 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  20. 입력되는 아날로그 음성 신호를 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링하는 A/D 변환 수단,
    A/D 변환 수단으로부터 출력된 음성 신호가 입력되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여, 링 메모리로부터 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  21. 입력되는 디지탈 음성 신호가, 설정된 재생 속도 배율에 따른 속도로 기록되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변화 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 치리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  22. 제19항에 있어서,
    상기 신호 처리 수단은,
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여,
    (a) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닌 제1 모드,
    (b) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 제2 모드,
    (c) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태가 아닌 제3모드,
    (d) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태인 제4 모드,
    (e) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태가 아닌 제5 모드, 및
    (f) 입력 음성이 무음 구간이고 또는 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태인 제6 모드
    중의 어떤 모드인지를 판별하는 모드 판별 수단과,
    제1 모드 또는 제3 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 제1 처리 수단,
    제2 모드 또는 제4 모드로 판별되었을 때에, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호를 삭제하는 제2 처리 수단,
    제5 모드로 판별되었을 때에, 무음 구간의 음성 신호를 삭제하는 제3 처리 수단, 및
    제6 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α(단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리를 행하는 제4 처리 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  23. 입력 음성 신호를 화속 변환 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    입력 음성 신호가, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 입력 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호 처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성 신호가 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하고, 압축률 변동 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  24. 입력되는 아날로그 음성 신호를 설정된 재생 속도 배율에 따른 샘플링 주파수로 샘플링하는 A/D 변환 수단,
    A/D 변환 수단으로부터 출력된 음성 신호가 입력되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다. 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    1배속 재생시의 샘플링 주파수와 같은 주파수의 판독 신호에 기초하여, 링 메모리로부터 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하고, 압축률 변동모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  25. 입력되는 디지탈 음성 신호가, 설정된 재생 속도 배율에 따른 속도로 기록되는 프레임 메모리,
    프레임 메모리에 소요수의 음성 신호가 입력될 때마다, 그들 음성 신호에 대하여 화속 변환 처리를 행하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 일정 속도로 데이타를 판독하는 판독 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    프레임 메모리에 입력된 소요수의 음성 신호에 대응하는 입력 음성이, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단, 및
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 따라서, 상기 소요수의 음성 신호에 대하여 압축 신장 처리 또는 삭제 처리를 행하는 신호처리 수단
    을 구비하고,
    상기 신호 처리 수단은, 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닐 때에 있어서, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하고, 압축률 변동 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 수단
    을 포함하고
    있는 것을 특징으로 하는 화속 변환 장치.
  26. 제23항에 있어서,
    상기 신호 처리 수단은,
    구간 판별 수단의 출력 및 축적량 산출 수단의 출력에 기초하여,
    (a) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태가 아닌 제1 모드,
    (b) 입력 음성이 음성 구간이고 또한 링 메모리가 오버플로우 직전 상태인 제2 모드,
    (c) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태가 아닌 제3모드,
    (d) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 미만이며, 동시에 링 메모리가 오버플로우 직전 상태인 제4 모드,
    (e) 입력 음성이 무음 구간이고 또한 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태가 아닌 제5 모드, 및
    (f) 입력 음성이 무음 구간이고 또는 무음 구간의 계속되는 길이가 소정의 무음 삭제 개시점 판별치 이상이며, 동시에 링 메모리가 언더플로우 직전 상태인 제6 모드
    중의 어떤 모드인지를 판별하는 모드 판별 수단,
    제1 모드 또는 제3 모드로 판별되었을 때에, 압축률 고정 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류에 따라서 결정된 압축률로 압축 신장 처리를 행하고, 압축률 변동 모드가 선택되어 있을 때에는, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 조작자에 의해 설정된 프로그램 종류 및 링 메모리의 축적량에 따라서 결정된 압축률로 압축 신장 처리를 행하는 제1 처리 수단,
    제2 모드 또는 제4 모드로 판별되었을 때에, 링 메모리의 축적량이 언더플로우 직전 상태가 될 때까지 음성 신호를 삭제하는 제2 처리 수단,
    제5 모드로 판별되었을 때에, 무음 구간의 음성 신호를 삭제하는 제3 처리 수단, 및
    제6 모드로 판별되었을 때에, 설정 재생 속도 배율을 n으로 하여, 압축률 1/n ± α(단, α는 0 이상이고 1 이하인 값)으로 압축 신장 처리를 행하는 제4 처리 수단
    을 구비하고 있는 것을 특징으로 하는 화속 변환 장치.
  27. 입력 음성 신호를 화속 변환 처리하는 화속 변환 처리 수단,
    화속 변환 처리 수단의 출력이 기록되는 링 메모리,
    링 메모리로부터 데이타를 일정 속도로 판독하는 수단, 및
    링 메모리의 기록 신호와 판독 신호에 기초하여, 링 메모리의 축적량을 산출하는 축적량 산출 수단을 구비하고 있고,
    상기 화속 변환 처리 수단은,
    입력 음성 신호가, 음성 구간인지 무음 구간인지를 판별하는 구간 판별 수단,
    입력 음성 신호가 무음 구간일 때에는, 입력 음성 신호를 삭제하는 수단, 및
    입력 음성 신호가 음성 구간일 때에, 설정 재생 속도 배율을 n으로 하여 1/n 이상의 압축률로서, 링 메모리의 축적량에 따라서 결정된 압축률로 입력 음성 신호에 대하여 압축 신장 처리를 행하는 수단
    을 구비하고
    있는 것을 특징으로 하는 화속 변환 장치.
  28. 제27항에 있어서.
    상기 구간 판별 수단의 판별에 의해 무음 구간이 소정 프레임 이상 연속하는 경우, 상기 입력 음성 신호를 삭제하는 수단은 이 소정 프레임의 무음 프레임의 개시점으로부터 다음에 도래하는 최초의 음성 프레임의 개시점까지의 구간을 무음 구간으로 하고, 이 무음 구간을 삭제하는 것을 특징으로 하는 화속 변환 장치.
KR1019940023601A 1993-09-18 1994-09-16 화속변환장치 KR100333795B1 (ko)

Applications Claiming Priority (16)

Application Number Priority Date Filing Date Title
JP25504093 1993-09-18
JP93-255040 1993-09-18
JP93-286052 1993-10-19
JP93-286051 1993-10-19
JP28605193 1993-10-19
JP28605293 1993-10-19
JP93-265001 1993-10-22
JP5265001A JPH07121985A (ja) 1993-10-22 1993-10-22 音声再生装置
JP93-312580 1993-11-17
JP31258093 1993-11-17
JP10987694 1994-05-24
JP94-109876 1994-05-24
JP94-109874 1994-05-24
JP94-109873 1994-05-24
JP10987394A JP3357742B2 (ja) 1993-09-18 1994-05-24 話速変換装置
JP10987494 1994-05-24

Publications (2)

Publication Number Publication Date
KR950009665A KR950009665A (ko) 1995-04-24
KR100333795B1 true KR100333795B1 (ko) 2002-10-12

Family

ID=27573005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940023601A KR100333795B1 (ko) 1993-09-18 1994-09-16 화속변환장치

Country Status (2)

Country Link
US (1) US5611018A (ko)
KR (1) KR100333795B1 (ko)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6178405B1 (en) * 1996-11-18 2001-01-23 Innomedia Pte Ltd. Concatenation compression method
JP3910702B2 (ja) * 1997-01-20 2007-04-25 ローランド株式会社 波形発生装置
US6236970B1 (en) * 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6122271A (en) * 1997-07-07 2000-09-19 Motorola, Inc. Digital communication system with integral messaging and method therefor
EP0907161B1 (en) * 1997-09-18 2001-07-11 Victor Company Of Japan, Ltd. Apparatus for processing audio signal
MY118991A (en) * 1997-09-22 2005-02-28 Victor Company Of Japan Apparatus for processing audio signal
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP4045003B2 (ja) * 1998-02-16 2008-02-13 富士通株式会社 拡張ステーション及びそのシステム
JP4170458B2 (ja) 1998-08-27 2008-10-22 ローランド株式会社 波形信号の時間軸圧縮伸長装置
US6323797B1 (en) 1998-10-06 2001-11-27 Roland Corporation Waveform reproduction apparatus
US6243329B1 (en) 1999-01-06 2001-06-05 Visteon Global Technologies, Inc. Method of enhanced compression rate for a multi-disc CD player
US6205097B1 (en) 1999-01-06 2001-03-20 Visteon Global Technologies, Inc. Method of enhanced data compression rate for a CD player
JP3546755B2 (ja) * 1999-05-06 2004-07-28 ヤマハ株式会社 リズム音源信号の時間軸圧伸方法及び装置
JP2001075565A (ja) 1999-09-07 2001-03-23 Roland Corp 電子楽器
JP2001084000A (ja) 1999-09-08 2001-03-30 Roland Corp 波形再生装置
JP4293712B2 (ja) * 1999-10-18 2009-07-08 ローランド株式会社 オーディオ波形再生装置
JP2001125568A (ja) 1999-10-28 2001-05-11 Roland Corp 電子楽器
US7010491B1 (en) 1999-12-09 2006-03-07 Roland Corporation Method and system for waveform compression and expansion with time axis
US20020004722A1 (en) * 2000-02-28 2002-01-10 Takeo Inoue Voice speed converting apparatus
JP3992419B2 (ja) * 2000-03-27 2007-10-17 パイオニア株式会社 情報再生装置
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体
DE10035965A1 (de) * 2000-07-24 2002-02-21 Infineon Technologies Ag Verfahren und Vorrichtung zum Ausgeben eines von einer Verarbeitungseinrichtung verarbeiteten Datenstroms
EP1309965B1 (en) * 2000-08-09 2010-12-15 Thomson Licensing Method and system for enabling audio speed conversion
US6999921B2 (en) * 2001-12-13 2006-02-14 Motorola, Inc. Audio overhang reduction by silent frame deletion in wireless calls
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7130793B2 (en) * 2002-04-05 2006-10-31 Avaya Technology Corp. System and method for minimizing overrun and underrun errors in packetized voice transmission
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
EP1770688B1 (en) * 2004-07-21 2013-03-06 Fujitsu Limited Speed converter, speed converting method and program
JP2007235221A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 揺らぎ吸収バッファ装置
JP5011803B2 (ja) * 2006-04-24 2012-08-29 ソニー株式会社 オーディオ信号伸張圧縮装置及びプログラム
JP4390289B2 (ja) * 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
WO2009024626A1 (es) * 2007-08-23 2009-02-26 Tunes4Books, S.L. Método y sistema para adaptar la velocidad de reproducción de la banda sonora asociada a un texto a la velocidad de lectura de un usuario
CN102124523B (zh) 2008-07-04 2014-08-27 布克查克控股有限公司 制作并播放音带的方法和系统
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP2012252036A (ja) * 2011-05-31 2012-12-20 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
JPH0294832A (ja) * 1988-09-30 1990-04-05 Fujitsu Ltd 音声符号化および復号化システム
JP2700937B2 (ja) * 1990-01-04 1998-01-21 シャープ株式会社 早聞き装置
JPH0573089A (ja) * 1991-09-18 1993-03-26 Matsushita Electric Ind Co Ltd 音声再生方法
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JP3249567B2 (ja) * 1992-03-10 2002-01-21 日本放送協会 話速変換方法および装置
JPH06266381A (ja) * 1993-03-11 1994-09-22 Hitachi Ltd 話速変換処理装置

Also Published As

Publication number Publication date
KR950009665A (ko) 1995-04-24
US5611018A (en) 1997-03-11

Similar Documents

Publication Publication Date Title
KR100333795B1 (ko) 화속변환장치
CA2253749C (en) Method and device for instantly changing the speed of speech
US6925340B1 (en) Sound reproduction method and sound reproduction apparatus
US20080262856A1 (en) Method and system for enabling audio speed conversion
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
US5251261A (en) Device for the digital recording and reproduction of speech signals
KR100303913B1 (ko) 음성처리방법, 음성처리장치 및 기록재생장치
JPWO2006077626A1 (ja) 話速変換方法及び話速変換装置
EP1481392B1 (en) Trick mode audio playback
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
JP3162945B2 (ja) ビデオテープレコーダ
JP3378672B2 (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JP3357742B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JPH08146985A (ja) 話速制御システム
JPH08328586A (ja) 音声時間軸変換装置
JPH09138698A (ja) 音声記録再生装置
JP4212253B2 (ja) 話速変換装置
EP0702354A1 (en) Apparatus for modifying the time scale modification of speech
JP3189587B2 (ja) 音声時間軸変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JP2007025039A (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP3189597B2 (ja) 音声時間軸変換装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080331

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee