KR100294918B1 - 스펙트럼혼합여기신호의진폭모델링방법 - Google Patents
스펙트럼혼합여기신호의진폭모델링방법 Download PDFInfo
- Publication number
- KR100294918B1 KR100294918B1 KR1019980012630A KR19980012630A KR100294918B1 KR 100294918 B1 KR100294918 B1 KR 100294918B1 KR 1019980012630 A KR1019980012630 A KR 1019980012630A KR 19980012630 A KR19980012630 A KR 19980012630A KR 100294918 B1 KR100294918 B1 KR 100294918B1
- Authority
- KR
- South Korea
- Prior art keywords
- amplitude
- voiced
- probability
- excitation signal
- sound
- Prior art date
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 230000003595 spectral effect Effects 0.000 claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 개시한다. 이 진폭 모델링 방법은, 먼저 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 다음에, 합성단에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성한다. 끝으로, 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다.
Description
본 발명은 음성신호의 부호화/복호화에 관한 것으로서, 특히 스펙트럼 혼합 여기신호의 진폭 모델링 방법에 관한 것이다.
최근들어 미국, 일본 및 유럽 등지에서 음성 부호화기들의 표준화가 진행되고 있다. 표준화에 따른 음성 부호화기들은 일반적으로 음성을 스펙트럼 포락선 신호와 스펙트럼 여기신호로 나누어 표현하고, 각각을 양자화하여 얻어진 해당 비트 스트림을 전송하는 방식을 채택하고 있다.
도 1 (a)~(g)는 종래의 다중밴드 여기신호 모델링 방법을 예시적으로 설명하기 위한 파형도들이다.
다중밴드 여기신호 보코더(Miltiband Excitation Vocoder, 이하 MBE라 칭함)는 스펙트럼 여기신호를 모델링하는데 있어서 어느 하나의 하모닉에서의 스펙트럼을 유성 모델이나 무성 모델중 하나로만 표현한다. 도 1 (a)~(g)를 참조하면, MBE 모델링을 위해 먼저, 다중밴드 여기신호 보코더의 분석단에서는 음성 신호의 원 스펙트럼(도 1 (a))을 스펙트럼 포락선(도 1 (b))과, 유성 스펙트럼(도 1 (c))으로 모델링한 후에, 각 밴드의 유성/무성 정보(도 1 (d), 예컨대, 하이 레벨은 유성 정보를, 로우 레벨은 무성 정보를 나타냄)를 합성단으로 전송한다. 다음에, 합성단에서는 분석단으로부터 전송된 유성/무성 정보에 근거하여 유성 밴드에 도 1 (c)에 도시된 유성 스펙트럼 모델을 심고, 무성 밴드에 도 1 (e)에 도시된 무성 스펙트럼 모델을 심음으로써, 스펙트럼 여기신호를 합성하게 된다(도 1 (f)). 또한, 스펙트럼 여기신호에 도 1 (b)에 도시된 스펙트럼 포락선을 얹음으로써 도 1 (a)에 도시된 원 스펙트럼과 유사한 합성 스펙트럼을 구하게 된다(도 1 (g)).
전술한 바와 같이, 다중밴드 여기신호 보코더에서 유성 밴드는 유성 모델로 스펙트럼 진폭을 구하여 그것으로 유성음을 합성하고, 무성 밴드는 무성 모델로 진폭을 구하여 그것으로 무성음을 합성한다. 즉, 각 하모닉마다 유성/무성 정보에 근거하여 유성/무성 모델을 둘중 하나로만 결정하여 스펙트럼이 표현된다. 그러나, 실제로 음성은 유성음과 무성음이 소정의 비율로 혼합되어 있기 때문에, 도 1 (d)에 도시된 바와 같이 유성/무성 정보를 구분할 수 없으며, 이런 정보로는 성능이 좋은 합성 스펙트럼을 얻기 어렵다는 문제점이 있다.
본 발명이 이루고자하는 기술적 과제는, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는, 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 제공하는데 있다.
도 1 (a)~(g)는 종래의 다중밴드 여기신호 모델링 방법을 예시적으로 설명하기 위한 파형도들이다.
도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트이다.
도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들이다.
상기 과제를 이루기 위하여, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, (a) 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송하는 단계, (b) 합성단에서 (a) 단계에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성하는 단계 및 (c) 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는 단계를 구비한다.
이하, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법 및 장치의 구성 및 동작을 첨부한 도면을 참조하여 다음과 같이 설명한다.
보다 나은 스펙트럼 여기신호 및 합성 스펙트럼을 얻기 위해서는 하나의 하모닉에서 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현하는 방법이 요구된다. 본 발명에서는 스펙트럼 혼합 여기신호 부호화기(Spectrally Mixed Excitation Vocoder)방식에 의한 여기신호 모델링 방식을 택하였다. 이 방식은 하나의 하모닉에서의 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써,종래의 다중밴드 여기신호 부호화기에 비해 더 나은 성능을 나타냈다.
도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트로서, 전술한 스펙트럼 혼합 여기신호 부호화기(SMX)에서의 분석단에서 스펙트럼 진폭을 구하여 합성단에서 합성하는 과정을 나타낸다.
먼저, 분석단에서 소정의 유성 확률(α)에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 구체적으로, 분석단으로 입력된 음성신호에서 소정의 유성 확률(α)을 계산한다(제200단계). 여기서, 유성 확률(α)은 음성신호에서 유성음이 포함되는 확률을 나타내며, 이 값을 구하는 방법은 공지되어 있다.
다음에, 소정의 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제202단계). 제202단계에서 기준치보다 크다면, 유성 모델로 진폭(A)을 계산한다(제204단계). 반면, 제202단계에서 기준치보다 크지 않다면, 무성 모델로 진폭(B)을 계산한다(제206단계). 여기서, 기준치는 통상 0.7로 정해진다. 즉, 유성 확률(α)이 0.7보다 크면 음성신호에 유성음이 많이 포함된 것으로 간주하여 유성 모델로 진폭을 계산하는 것이 바람직하다.
제204단계 또는 제206단계를 거쳐 선택적으로 스펙트럼 혼합 여기신호의 진폭이 계산되면, 유성 확률(α)과 함께 진폭(A) 또는 진폭(B)을 전송한다(제208단계). 여기서, 유성 확률(α)을 함께 전송하는 것은 합성단에서 전송된 진폭이 유성 모델로 계산된 진폭인지, 무성 모델로 계산된 진폭인지를 식별하기 위함이다.
다음에, 합성단에서는 전송된 진폭을 이용하여 유성음 및 무성음을 각각의진폭으로 합성한다. 구체적으로, 분석단으로부터 전송된 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제210단계). 여기서, 기준치 또한 통상 0.7로 정해진다.
제210단계에서 기준치보다 크다면, 전송된 진폭을 유성 모델로 계산된 진폭(A)으로 간주하여 유성음을 합성하고, 진폭(A)에서 진폭(B)을 계산하여 무성음을 합성한다(제212단계). 반면, 제210단계에서 기준치보다 크지 않는다면, 전송된 진폭을 무성 모델로 계산된 진폭(B)으로 간주하여 무성음을 합성하고, 진폭(B)에서 진폭(A)을 계산하여 유성음을 합성한다(제214단계).
끝으로, 제212단계 또는 제214단계를 거쳐 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다(제216단계).
도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들로서, 도 3 (a)는 스펙트럼의 유성 모델을, 도 3 (b)는 스펙트럼의 무성 모델을 각각 나타낸다. 도시된 바와 같이, 유성 모델과 무성 모델은 상이한 진폭을 가지므로, 이러한 진폭의 특성에 따라 본 발명과 같이 각각 진폭을 계산하여 유성음과 무성음을 합성할 필요가 있다.
이하, 실제로 분석단에서 진폭(A) 또는 진폭(B)를 계산하는 방법과, 합성단에서 한 진폭(A 또는 B)으로부터 다른 진폭(B 또는 A)을 계산하는 방법을 바람직한 실시예로서 설명한다.
임의의 스펙트럼 하모닉은 유성 모델과 무성 모델로 분석이 가능하다. 소정번째 하모닉이 예컨대, al에서 bl사이에 존재한다면, 도 3 (a)에서와 같이해밍(Hamming) 윈도우(wR(n))의 스펙트럼(WR( ))을 유성 모델로 하여 입력 스펙트럼을 분석하거나, 도 3 (b)에서와 같이 잡음 모델을 무성 모델로 하여 입력 스펙트럼을 분석할 수 있다. 이때 도 3 (a) 및 도 3 (b) 각각에서의 진폭(A)과 진폭(B)을 다음 수학식 1과 같이 나타낼 수 있다.
수학식 1에서,는 전송 피치에 의해 구해진 기본 주파수이며, 각 하모닉 밴드의 에너지(E)는 유성음이나 무성음이나 다음 수학식 2와 같이 나타낼 수 있다.
수학식 2에서, EA는 진폭(A)을 갖는 스펙트럼의 유성 모델에 대한 에너지를, EB는 진폭(B)을 갖는 스펙트럼의 무성 모델에 대한 에너지를 각각 나타낸다.
합성단에서 유성음과 무성음이 혼합될 때, 에너지가 유지되도록 하기 위해서, 다음 수학식 3에 의해 합성할 수 있다. 여기서, α는 유성 확률(0≤α≤1)을 나타낸다.
결과적으로, 진폭 관점에 보면진폭으로 유성음을 합성하고,진폭으로 무성음을 합성하면, 해당 밴드의 에너지가 유지된다는 것을 알 수 있다.
따라서, 분석단에서는 유성 확률(α)이 0.7보다 큰 경우에는 수학식 1에 의해 진폭(A)를 구하고, 유성 확률(α)이 0.7보다 크지 않은 경우에는 수학식 1에 의해 진폭(B)를 구하여 전송한다.
이에 대응하여, 합성단에서는 유성 확률(α)이 0.7보다 큰 경우에는 전송된 진폭을 진폭(A)으로 간주하여 유성음을 진폭(A)으로 모델링하고, 수학식 2에 의해 EA= EB이므로 무성음을 모델링하는데 필요한 진폭(B)을 다음 수학식 4에 의해 구할 수 있다. 즉, 진폭(A)을 이용하여 진폭(B)을 유도한다.
한편, 유성 확률(α)이 0.7보다 크지 않은 경우에는 전송된 진폭을 진폭(B)으로 간주하여 무성음을 진폭(B)으로 모델링하고, 수학식 2에 의해 EA= EB이므로 유성음을 모델링하는데 필요한 진폭(A)을 다음 수학식 5에 의해 구할 수 있다. 즉, 진폭(B)을 이용하여 진폭(A)을 유도한다.
이와 같은 방법으로 모델링된 진폭은 수학식 3에 의해 최종적인 합성 스펙트럼을 생성하는데 사용된다.
이상에서 설명한 바와 같이, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는 이점이 있다.
Claims (3)
- 스펙트럼 혼합 여기신호의 진폭 모델링 방법에 있어서,(a) 분석단에서 입력된 음성신호에서 계산된 소정의 유성 확률이 미리 설정된 기준치보다 크면, 스펙트럼의 유성 모델로 스펙트럼 혼합 여기신호의 진폭(A)을계산하여 상기 유성 확률과 함께 전송하는 단계;(b) 분석단에서 상기 유성 확률이 상기 기준치보다 크지 않으면, 스펙트럼의 무성 모델로 스펙트럼의 혼합 여기신호의 진폭(B)을 계산하여 상기 유성 확률과 함께 전송하는 단계;(c) 합성단에서 전송된 유성 확률이 상기 기준치보다 크면, 전송된 진폭을 상기 진폭(A)으로 간주하여 유성음을 합성하고, 상기 진폭(A)에서 진폭(B)를 계산하여 무성음을 합성하는 단계; 및(d) 합성단에서 전송된 유성 확률이 상기 기준치보다 크지 않으면, 상기 전송된 진폭을 상기 진폭(B)으로 간주하여 무성음을 합성하고, 상기 진폭(B)에서 상기 진폭(A)을 계산하여 유성음을 합성하는 단계; 및(e) 합성된 유성음과 무성음을 합하여 상기 스펙트럼 혼합 여기신호를 얻는 단계를 구비하는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.
- 제1항에 있어서, 상기 (a) 단계 및 (b) 단계에서 진폭(A)과 상기 진폭(B)은 각각 다음 수학식 1을 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.[수학식 1]
- 제1항에 있어서, 상기 (c) 단계에서 상기 진폭(B)는 하기의 수학식 4를 이용하여 계산되며, 상기 (d) 단계에서 상기 진폭(A)은 하기의 수학식 5를 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.[수학식 4][수학식 5]
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980012630A KR100294918B1 (ko) | 1998-04-09 | 1998-04-09 | 스펙트럼혼합여기신호의진폭모델링방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980012630A KR100294918B1 (ko) | 1998-04-09 | 1998-04-09 | 스펙트럼혼합여기신호의진폭모델링방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990079825A KR19990079825A (ko) | 1999-11-05 |
KR100294918B1 true KR100294918B1 (ko) | 2001-07-12 |
Family
ID=37527651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980012630A KR100294918B1 (ko) | 1998-04-09 | 1998-04-09 | 스펙트럼혼합여기신호의진폭모델링방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100294918B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5630012A (en) * | 1993-07-27 | 1997-05-13 | Sony Corporation | Speech efficient coding method |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
-
1998
- 1998-04-09 KR KR1019980012630A patent/KR100294918B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5630012A (en) * | 1993-07-27 | 1997-05-13 | Sony Corporation | Speech efficient coding method |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
Also Published As
Publication number | Publication date |
---|---|
KR19990079825A (ko) | 1999-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7496505B2 (en) | Variable rate speech coding | |
US7257535B2 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
CN104123946A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
US6345255B1 (en) | Apparatus and method for coding speech signals by making use of an adaptive codebook | |
JP3446764B2 (ja) | 音声合成システム及び音声合成サーバ | |
US8892428B2 (en) | Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude | |
US4975955A (en) | Pattern matching vocoder using LSP parameters | |
KR20020039555A (ko) | 음성부호화기의 유/무성음정보 추정방법 | |
AU5870299A (en) | Method for quantizing speech coder parameters | |
EP0810584A3 (en) | Signal coder | |
KR100294918B1 (ko) | 스펙트럼혼합여기신호의진폭모델링방법 | |
US7089180B2 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
US5937378A (en) | Wideband speech coder and decoder that band divides an input speech signal and performs analysis on the band-divided speech signal | |
JP3292711B2 (ja) | 音声符号化復号方法および装置 | |
CN101496097A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
US6983241B2 (en) | Method and apparatus for performing harmonic noise weighting in digital speech coders | |
JP4287840B2 (ja) | 符号化装置 | |
Gournay et al. | A 1200 bits/s HSX speech coder for very-low-bit-rate communications | |
Yoon et al. | Fixed point implementation of the QCELP speech coder | |
KR100202293B1 (ko) | 혼합 다중대역 여기 모델에 기반한 음성 부호화 방법 | |
KR100446595B1 (ko) | 국소화특성을이용한선스펙트럼주파수의벡터양자화방법 | |
JP2605256B2 (ja) | Lspパタンマツチングボコーダ | |
Viswanathan et al. | Voice-excited LPC coders for 9.6 kbps speech transmission | |
GB2266213A (en) | Digital signal coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080312 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |