KR960007128B1 - 음성합성 시스템의 논-제로 위상 복원 방법 - Google Patents

음성합성 시스템의 논-제로 위상 복원 방법 Download PDF

Info

Publication number
KR960007128B1
KR960007128B1 KR1019930005176A KR930005176A KR960007128B1 KR 960007128 B1 KR960007128 B1 KR 960007128B1 KR 1019930005176 A KR1019930005176 A KR 1019930005176A KR 930005176 A KR930005176 A KR 930005176A KR 960007128 B1 KR960007128 B1 KR 960007128B1
Authority
KR
South Korea
Prior art keywords
speech
waveform
phase information
signal
frequency envelope
Prior art date
Application number
KR1019930005176A
Other languages
English (en)
Other versions
KR940022369A (ko
Inventor
이윤근
Original Assignee
엘지전자주식회사
구자홍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자주식회사, 구자홍 filed Critical 엘지전자주식회사
Priority to KR1019930005176A priority Critical patent/KR960007128B1/ko
Publication of KR940022369A publication Critical patent/KR940022369A/ko
Application granted granted Critical
Publication of KR960007128B1 publication Critical patent/KR960007128B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

내용 없음.

Description

음성합성 시스템의 논-제로 위상 복원 방법
제 1 도는 종래의 제로 위상 복원 방법에 의한 음성 대칭 파형 생성 과정을 보인 흐름도.
제 2 도는 종래의 음성 파형 합성 방법을 설명하기 위한 파형도.
제 3 도는 본 발명이 적용되는 음성 합성 시스템의 하드웨어 블럭도.
제 4 도는 본 발명의 논-제로 위상 복원 방법에 의한 음성 파형 생성 과정을 보인 흐름도.
제 5 도는 본 발명의 웨이팅 과정을 설명하기 위한 파형도.
제 6 도는 본 발명의 음성 합성 방법을 보인 흐름도.
* 도면의 주요부분에 대한 부호의 설명
1 : 중앙 처리 장치 2 : 롬
3 : 램 4 : 입력 인터페이스부
5 : 디지탈/아날로그 변환부 6 : 증폭부
7 : 스피커
본 발명은 음성 합성에 관한 것으로, 특히 위상 정보를 0이 아닌 임의의 값으로 주어 제로 위상 복원을 할 경우 파형 중심에서 나타나는 이상 피크값에 의해 음질이 저하되는 현상을 해결하고 음질을 향상시킬 수 있도록 한 음성 합성 시스템의 논-제로 위상 복원 방법에 관한 것이다.
종래 일본에서 발표된 음성 합성 시스템은 대칭 파형을 연결시켜 음성 합성을 하는 기술이다.
제 1 도는 종래의 음성 합성 시스템에서 음성 신호를 분석하여 대칭 파형을 만드는 과정을 설명한 흐름도이다.
먼저, 입력된 음성 신호로부터 스펙트럼 포락선(Spectrum Envelope)을 구한다.
본래의 음성 신호를 복원하기 위해서는 스펙트럼 포락선과 위상 정보가 있어야 하는데, 위상 정보는 추출과정이 어렵고 대칭 파형 연결 과정에서 위상 동기를 고려해야 하는 등 처리과정이 복잡한 반면, 인간의 귀는 위상 정보에 둔감하므로 위상 정보를 모두 제로(0)로 처리한다.
이와같이 위상 정보를 "0"로 만든후 음성 파형은 역고속 푸리에 변환(Inverse Fast Fourier Transform)하면 음성 파형이 코사인(cosine) 함수의 합으로만 표현되므로 대칭 파형이 얻어진다.
이때 상기 대칭 파형은 중심부에서 비정상적인 피크(Peak)가 발생되므로 이를 없애기 위해 파형 수정 작업을 하여 피크값을 임의로 변환(감소)시킨다.
그후 파형의 양쪽 끝을 0로 만드는 웨이팅(Weighting)과정을 수행하면 원하는 대칭 파형을 얻을 수 있고, 이 대칭 파형을 ADPCM(Adaptive Differential Pulas Code Modulation)하여 저장하였다가 필요한 파형을 연결하여 합성하면 음성을 만들어 낼 수 있다.
상기와 같이 대칭 파형을 연결하여 음성을 합성하는 방법을 제 2 도의 파형도에 나타내었다.
그러나 이러한 제로 위상 복원 방법에 의하면, 음성 파형이 코사인 합수의 합으로 표현되므로 대칭 파형이 얻어지고, 코사인 함수는 t=0에서 피크값을 갖는 특성이 있으므로 음성 신호에 포함되어 있던 노이즈가 본래의 랜덤 (random) 위상 특성을 잃고 t=0에서 피크 값을 나타내어 비정상적인 피크가 형성된다.
종래에는 이 피크를 없애기 위해 파형 수정 과정을 수행하였으나, 이 방법은 피크값을 임의로 감소시키는 방법으로 이 방법에 의하면 본래의 음성 신호 특성까지 잃어버리는 경우가 생기므로 합성 음성이 저하되어 울림 소리가 출력되는 문제점이 있었다.
본 발명은 상기와 같은 종래의 문제점을 해결하기 이한 것으로, 본 발명의 목적은 입력된 음성 신호로부터 음성 파형 정보를 추출할때 주파수 포락선에 위상 정보로서"0"이 아닌 임의의 값을 더해준 후 역푸리에 변환하여 노이즈의 피크로 인한 음질 저하 현상을 방지할 수 있도록 한 음성 합성 시스템의 논-제로 위상 복원 방법을 제공하는데 있다.
이하, 첨보된 제 3 도 내지 제 6 도를 참조하여 본 발명의 실시예를 상세히 설명하면 다음과 같다.
제 3 도는 본 발명의 논-제로(non-zero) 위상 복원 방법이 적용되는 음성 합성 시스템의 하드웨어 블럭도이다.
이에 도시된 바와같이, 음성 합성 시스템은 음성 합성에 관련된 시스템의 전체 동작을 제어하는 중앙 처리장치(1)와, 중앙 처리 장치(1)에서 수행할 음성 합성 프로그램과 음성 디베이스(Data base)를 저장하고 있는 롬(ROM ; 2)과, 중앙 처리 장치(1)의 어드레스 지정에 따라 처리중인 데이타를 일시 저장하고 저장된 내용을 출력하는 램(RAM ; 3)과, 입력된 문자 정보를 중앙 처리 장치(1)에 전달해 주는 입력 인터페이스부(4)와, 중앙 처리 장치(1)에서 합성되어 출력된 음성 데이타를 아날로그 신호로 변환하는 디지탈/아날로그 변환부(5)와 디지탈/아날로구 변환부(5)의 출력 신호를 스피커를 구동시킬 수 있는 레벨로 증폭하는 증폭부(6), 증폭부(6)에서 출력된 전기적인 신호를 음성으로 바꾸어 출력하는 스피커(7)로 구성되어 있다.
여기서, 본 발명의 음성 합성 알고리즘은 롬(2)에 프로그램되어 있어 중앙 처리 장치(1)가 이것을 읽어들여 수행하게 되고, 음성 디 베이스도 롬(2)에 저장되어 여기에 음성 파형들이 저장된다.
제 4 도는 본 발명의 논-제로 위상 복원 방법에 의한 음성 파형 생성 과정을 설명한 흐름도이다.
먼저, 음성 신호가 입력되면 이 신호를 분석하여 주파수 포락선을 구하고, 상기 주파수 포락선에 위상 정보로서 π/2를 가한다.
이 때 위상 정보는 반드시 π/2를 더 해줄 필요는 없으나 "0"이 아닌 임의의 값중에서 이 값이 가장 적당하다.
π/2의 위상 정보를 가한 후 음성 신호를 역 푸리에 변화하면 음성 신호가 사인(sine) 함수의 합으로만 나타나는데, 사인 함수는 코사인 함수처럼 t=0에서 피크를 갖지 않고 t-(1/4)f에서 피크를 가지므로 각각의 주파수 성분에 따라 f값이 변하여 피크가 더해지는 위치가 변하게 된다.
그러므로 종래의 제로 위상의 경우처럼 노이즈의 피크가 중심부(t=0)에 집중되어 나타나는 현상이 생기지 않는다.
음성 신호를 역 푸리에 변환한후에는 웨이팅 작업을 수행하는데, 이 작업은 제 5 도에 도시된 바와같이 음성 신호 파형에 웨이팅 함수를 곱하여 음성 파형이 양쪽끝이 점차로 줄어드는 파형을 얻게 된다.
이와같은 과정을 수행하여 얻은 모든 음소의 음성 파형들은 ADPCM 코딩되어 롬(2)의 음성 디베이스에 저장된다.
제 6 도는 본 발명에 의해 만들어진 음성 파형을 연결하여 음성을 합성하는 방법을 보인 흐름도이다.
입력 인터페이스부(4)를 통해 문자가 입력되면, 중앙 처리 장치(1)는 롬(2)의 어드레스를 지정하여 입력된 문자에 해당하는 음성 파형을 음성 디베이스로부터 읽어온다.
읽어온 음성 파형은 제 2 도에 도시된 것처럼 피치(PITCH) 주기만큼 이동시켜 더해주는데, 이때 피치 정보는 음성 디베이스에 미리 저장되어 있던 값을 읽어들여 사용하거나, 또는 중앙 처리 장치(1)에서 일정한 규칙에 따라 만들어 사용하게 된다.
음성 파형을 이동시켜 더하는 작업을 마지막 프레임까지 수행한 후, 롬(2)의 디베이스에 미리 저장된 이득을 곱하여 출력하므로서 합성된 음성신호가 얻어진다.
중앙 처리 장치(1)는 합성된 음성 파형을 디지탈/아날로그 변환부(5)에 의해 아날로그 신호로 변환하고, 증폭부(6)로 인가하여 증폭한 후 스피커(7)로 출력하게 된다.
이상에서와 같이 본 발명은 음성 파형을 생성할때 위상 정보를 0이 아닌 임의의 값으로 주므로 종래의 제로 위상 복원법에 의한 합성 음성에서 나타나는 음질 저하 현상을 없앨 수 있는 효과가 있다.

Claims (2)

  1. 입력된 음성 신호를 분석하여 주파수 포락선을 구하는 단계와, 상기 주파수 포락선에 "0"이 아닌 임의의 값을 위상 정보로 더하는 단계와, 위상 정보가 더해진 신호를 역 푸리에 변환하는 단계와, 변환된 음성 신호 파형의 양끝을 0으로 만드는 웨이팅 단계와, 상기 단계들을 수행하여 만든 모든 음소의 음성 신호 파형을 ADPCM 코딩하여 저장하는 단계로 이루어짐을 특징으로 하는 음성 합성 시스템의 논-제로 위상 복원 방법.
  2. 제 1 항에 있어서, 상기 주파수 포락선에 π/2를 위상 정보로서 더해 주도록 한 것을 특징으로 하는 음성 합성 시스템의 논-제로 위상 복원 방법.
KR1019930005176A 1993-03-30 1993-03-30 음성합성 시스템의 논-제로 위상 복원 방법 KR960007128B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019930005176A KR960007128B1 (ko) 1993-03-30 1993-03-30 음성합성 시스템의 논-제로 위상 복원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019930005176A KR960007128B1 (ko) 1993-03-30 1993-03-30 음성합성 시스템의 논-제로 위상 복원 방법

Publications (2)

Publication Number Publication Date
KR940022369A KR940022369A (ko) 1994-10-20
KR960007128B1 true KR960007128B1 (ko) 1996-05-27

Family

ID=19353119

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019930005176A KR960007128B1 (ko) 1993-03-30 1993-03-30 음성합성 시스템의 논-제로 위상 복원 방법

Country Status (1)

Country Link
KR (1) KR960007128B1 (ko)

Also Published As

Publication number Publication date
KR940022369A (ko) 1994-10-20

Similar Documents

Publication Publication Date Title
JP4792613B2 (ja) 情報処理装置および方法、並びに記録媒体
JP5341128B2 (ja) 補聴器における安定性の改善
US5953696A (en) Detecting transients to emphasize formant peaks
JP2779886B2 (ja) 広帯域音声信号復元方法
US7630883B2 (en) Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
JP4747835B2 (ja) オーディオ再生の効果付加方法およびその装置
US5579434A (en) Speech signal bandwidth compression and expansion apparatus, and bandwidth compressing speech signal transmission method, and reproducing method
US20020173865A1 (en) Digital audio signal processing
JP2014531865A (ja) 聴覚装置における安定性と音声の聴き取り易さの改善
US5841875A (en) Digital audio signal processor with harmonics modification
US5369730A (en) Speech synthesizer
KR960007128B1 (ko) 음성합성 시스템의 논-제로 위상 복원 방법
US5687281A (en) Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
US5588089A (en) Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
US4601052A (en) Voice analysis composing method
US20050259833A1 (en) Frequency responses, apparatus and methods for the harmonic enhancement of audio signals
US7151215B2 (en) Waveform adjusting system for music file
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
KR950012362B1 (ko) 위상잡음 첨가에 의한 고음질 음성합성장치
JP2900078B2 (ja) 波形記録・再生法及び波形再生装置
JP2900076B2 (ja) 波形生成装置
JPS5898793A (ja) 音声合成装置
JP2002099300A (ja) 音声符号化方法及び装置
JP3302075B2 (ja) 合成パラメータ変換方法および装置
JP3655016B2 (ja) 楽音波形形成方法及びその装置

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070418

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee