KR100294918B1 - 스펙트럼혼합여기신호의진폭모델링방법 - Google Patents

스펙트럼혼합여기신호의진폭모델링방법 Download PDF

Info

Publication number
KR100294918B1
KR100294918B1 KR1019980012630A KR19980012630A KR100294918B1 KR 100294918 B1 KR100294918 B1 KR 100294918B1 KR 1019980012630 A KR1019980012630 A KR 1019980012630A KR 19980012630 A KR19980012630 A KR 19980012630A KR 100294918 B1 KR100294918 B1 KR 100294918B1
Authority
KR
South Korea
Prior art keywords
amplitude
voiced
probability
excitation signal
sound
Prior art date
Application number
KR1019980012630A
Other languages
English (en)
Other versions
KR19990079825A (ko
Inventor
김무영
조용덕
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019980012630A priority Critical patent/KR100294918B1/ko
Publication of KR19990079825A publication Critical patent/KR19990079825A/ko
Application granted granted Critical
Publication of KR100294918B1 publication Critical patent/KR100294918B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 개시한다. 이 진폭 모델링 방법은, 먼저 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 다음에, 합성단에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성한다. 끝으로, 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다.

Description

스펙트럼 혼합 여기신호의 진폭 모델링 방법{Magnitude modeling method for spectrally mixed excitation signal}
본 발명은 음성신호의 부호화/복호화에 관한 것으로서, 특히 스펙트럼 혼합 여기신호의 진폭 모델링 방법에 관한 것이다.
최근들어 미국, 일본 및 유럽 등지에서 음성 부호화기들의 표준화가 진행되고 있다. 표준화에 따른 음성 부호화기들은 일반적으로 음성을 스펙트럼 포락선 신호와 스펙트럼 여기신호로 나누어 표현하고, 각각을 양자화하여 얻어진 해당 비트 스트림을 전송하는 방식을 채택하고 있다.
도 1 (a)~(g)는 종래의 다중밴드 여기신호 모델링 방법을 예시적으로 설명하기 위한 파형도들이다.
다중밴드 여기신호 보코더(Miltiband Excitation Vocoder, 이하 MBE라 칭함)는 스펙트럼 여기신호를 모델링하는데 있어서 어느 하나의 하모닉에서의 스펙트럼을 유성 모델이나 무성 모델중 하나로만 표현한다. 도 1 (a)~(g)를 참조하면, MBE 모델링을 위해 먼저, 다중밴드 여기신호 보코더의 분석단에서는 음성 신호의 원 스펙트럼(도 1 (a))을 스펙트럼 포락선(도 1 (b))과, 유성 스펙트럼(도 1 (c))으로 모델링한 후에, 각 밴드의 유성/무성 정보(도 1 (d), 예컨대, 하이 레벨은 유성 정보를, 로우 레벨은 무성 정보를 나타냄)를 합성단으로 전송한다. 다음에, 합성단에서는 분석단으로부터 전송된 유성/무성 정보에 근거하여 유성 밴드에 도 1 (c)에 도시된 유성 스펙트럼 모델을 심고, 무성 밴드에 도 1 (e)에 도시된 무성 스펙트럼 모델을 심음으로써, 스펙트럼 여기신호를 합성하게 된다(도 1 (f)). 또한, 스펙트럼 여기신호에 도 1 (b)에 도시된 스펙트럼 포락선을 얹음으로써 도 1 (a)에 도시된 원 스펙트럼과 유사한 합성 스펙트럼을 구하게 된다(도 1 (g)).
전술한 바와 같이, 다중밴드 여기신호 보코더에서 유성 밴드는 유성 모델로 스펙트럼 진폭을 구하여 그것으로 유성음을 합성하고, 무성 밴드는 무성 모델로 진폭을 구하여 그것으로 무성음을 합성한다. 즉, 각 하모닉마다 유성/무성 정보에 근거하여 유성/무성 모델을 둘중 하나로만 결정하여 스펙트럼이 표현된다. 그러나, 실제로 음성은 유성음과 무성음이 소정의 비율로 혼합되어 있기 때문에, 도 1 (d)에 도시된 바와 같이 유성/무성 정보를 구분할 수 없으며, 이런 정보로는 성능이 좋은 합성 스펙트럼을 얻기 어렵다는 문제점이 있다.
본 발명이 이루고자하는 기술적 과제는, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는, 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 제공하는데 있다.
도 1 (a)~(g)는 종래의 다중밴드 여기신호 모델링 방법을 예시적으로 설명하기 위한 파형도들이다.
도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트이다.
도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들이다.
상기 과제를 이루기 위하여, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, (a) 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송하는 단계, (b) 합성단에서 (a) 단계에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성하는 단계 및 (c) 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는 단계를 구비한다.
이하, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법 및 장치의 구성 및 동작을 첨부한 도면을 참조하여 다음과 같이 설명한다.
보다 나은 스펙트럼 여기신호 및 합성 스펙트럼을 얻기 위해서는 하나의 하모닉에서 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현하는 방법이 요구된다. 본 발명에서는 스펙트럼 혼합 여기신호 부호화기(Spectrally Mixed Excitation Vocoder)방식에 의한 여기신호 모델링 방식을 택하였다. 이 방식은 하나의 하모닉에서의 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써,종래의 다중밴드 여기신호 부호화기에 비해 더 나은 성능을 나타냈다.
도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트로서, 전술한 스펙트럼 혼합 여기신호 부호화기(SMX)에서의 분석단에서 스펙트럼 진폭을 구하여 합성단에서 합성하는 과정을 나타낸다.
먼저, 분석단에서 소정의 유성 확률(α)에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 구체적으로, 분석단으로 입력된 음성신호에서 소정의 유성 확률(α)을 계산한다(제200단계). 여기서, 유성 확률(α)은 음성신호에서 유성음이 포함되는 확률을 나타내며, 이 값을 구하는 방법은 공지되어 있다.
다음에, 소정의 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제202단계). 제202단계에서 기준치보다 크다면, 유성 모델로 진폭(A)을 계산한다(제204단계). 반면, 제202단계에서 기준치보다 크지 않다면, 무성 모델로 진폭(B)을 계산한다(제206단계). 여기서, 기준치는 통상 0.7로 정해진다. 즉, 유성 확률(α)이 0.7보다 크면 음성신호에 유성음이 많이 포함된 것으로 간주하여 유성 모델로 진폭을 계산하는 것이 바람직하다.
제204단계 또는 제206단계를 거쳐 선택적으로 스펙트럼 혼합 여기신호의 진폭이 계산되면, 유성 확률(α)과 함께 진폭(A) 또는 진폭(B)을 전송한다(제208단계). 여기서, 유성 확률(α)을 함께 전송하는 것은 합성단에서 전송된 진폭이 유성 모델로 계산된 진폭인지, 무성 모델로 계산된 진폭인지를 식별하기 위함이다.
다음에, 합성단에서는 전송된 진폭을 이용하여 유성음 및 무성음을 각각의진폭으로 합성한다. 구체적으로, 분석단으로부터 전송된 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제210단계). 여기서, 기준치 또한 통상 0.7로 정해진다.
제210단계에서 기준치보다 크다면, 전송된 진폭을 유성 모델로 계산된 진폭(A)으로 간주하여 유성음을 합성하고, 진폭(A)에서 진폭(B)을 계산하여 무성음을 합성한다(제212단계). 반면, 제210단계에서 기준치보다 크지 않는다면, 전송된 진폭을 무성 모델로 계산된 진폭(B)으로 간주하여 무성음을 합성하고, 진폭(B)에서 진폭(A)을 계산하여 유성음을 합성한다(제214단계).
끝으로, 제212단계 또는 제214단계를 거쳐 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다(제216단계).
도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들로서, 도 3 (a)는 스펙트럼의 유성 모델을, 도 3 (b)는 스펙트럼의 무성 모델을 각각 나타낸다. 도시된 바와 같이, 유성 모델과 무성 모델은 상이한 진폭을 가지므로, 이러한 진폭의 특성에 따라 본 발명과 같이 각각 진폭을 계산하여 유성음과 무성음을 합성할 필요가 있다.
이하, 실제로 분석단에서 진폭(A) 또는 진폭(B)를 계산하는 방법과, 합성단에서 한 진폭(A 또는 B)으로부터 다른 진폭(B 또는 A)을 계산하는 방법을 바람직한 실시예로서 설명한다.
임의의 스펙트럼 하모닉은 유성 모델과 무성 모델로 분석이 가능하다. 소정번째 하모닉이 예컨대, al에서 bl사이에 존재한다면, 도 3 (a)에서와 같이해밍(Hamming) 윈도우(wR(n))의 스펙트럼(WR( ))을 유성 모델로 하여 입력 스펙트럼을 분석하거나, 도 3 (b)에서와 같이 잡음 모델을 무성 모델로 하여 입력 스펙트럼을 분석할 수 있다. 이때 도 3 (a) 및 도 3 (b) 각각에서의 진폭(A)과 진폭(B)을 다음 수학식 1과 같이 나타낼 수 있다.
수학식 1에서,는 전송 피치에 의해 구해진 기본 주파수이며, 각 하모닉 밴드의 에너지(E)는 유성음이나 무성음이나 다음 수학식 2와 같이 나타낼 수 있다.
수학식 2에서, EA는 진폭(A)을 갖는 스펙트럼의 유성 모델에 대한 에너지를, EB는 진폭(B)을 갖는 스펙트럼의 무성 모델에 대한 에너지를 각각 나타낸다.
합성단에서 유성음과 무성음이 혼합될 때, 에너지가 유지되도록 하기 위해서, 다음 수학식 3에 의해 합성할 수 있다. 여기서, α는 유성 확률(0≤α≤1)을 나타낸다.
결과적으로, 진폭 관점에 보면진폭으로 유성음을 합성하고,진폭으로 무성음을 합성하면, 해당 밴드의 에너지가 유지된다는 것을 알 수 있다.
따라서, 분석단에서는 유성 확률(α)이 0.7보다 큰 경우에는 수학식 1에 의해 진폭(A)를 구하고, 유성 확률(α)이 0.7보다 크지 않은 경우에는 수학식 1에 의해 진폭(B)를 구하여 전송한다.
이에 대응하여, 합성단에서는 유성 확률(α)이 0.7보다 큰 경우에는 전송된 진폭을 진폭(A)으로 간주하여 유성음을 진폭(A)으로 모델링하고, 수학식 2에 의해 EA= EB이므로 무성음을 모델링하는데 필요한 진폭(B)을 다음 수학식 4에 의해 구할 수 있다. 즉, 진폭(A)을 이용하여 진폭(B)을 유도한다.
한편, 유성 확률(α)이 0.7보다 크지 않은 경우에는 전송된 진폭을 진폭(B)으로 간주하여 무성음을 진폭(B)으로 모델링하고, 수학식 2에 의해 EA= EB이므로 유성음을 모델링하는데 필요한 진폭(A)을 다음 수학식 5에 의해 구할 수 있다. 즉, 진폭(B)을 이용하여 진폭(A)을 유도한다.
이와 같은 방법으로 모델링된 진폭은 수학식 3에 의해 최종적인 합성 스펙트럼을 생성하는데 사용된다.
이상에서 설명한 바와 같이, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는 이점이 있다.

Claims (3)

  1. 스펙트럼 혼합 여기신호의 진폭 모델링 방법에 있어서,
    (a) 분석단에서 입력된 음성신호에서 계산된 소정의 유성 확률이 미리 설정된 기준치보다 크면, 스펙트럼의 유성 모델로 스펙트럼 혼합 여기신호의 진폭(A)을계산하여 상기 유성 확률과 함께 전송하는 단계;
    (b) 분석단에서 상기 유성 확률이 상기 기준치보다 크지 않으면, 스펙트럼의 무성 모델로 스펙트럼의 혼합 여기신호의 진폭(B)을 계산하여 상기 유성 확률과 함께 전송하는 단계;
    (c) 합성단에서 전송된 유성 확률이 상기 기준치보다 크면, 전송된 진폭을 상기 진폭(A)으로 간주하여 유성음을 합성하고, 상기 진폭(A)에서 진폭(B)를 계산하여 무성음을 합성하는 단계; 및
    (d) 합성단에서 전송된 유성 확률이 상기 기준치보다 크지 않으면, 상기 전송된 진폭을 상기 진폭(B)으로 간주하여 무성음을 합성하고, 상기 진폭(B)에서 상기 진폭(A)을 계산하여 유성음을 합성하는 단계; 및
    (e) 합성된 유성음과 무성음을 합하여 상기 스펙트럼 혼합 여기신호를 얻는 단계를 구비하는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.
  2. 제1항에 있어서, 상기 (a) 단계 및 (b) 단계에서 진폭(A)과 상기 진폭(B)은 각각 다음 수학식 1을 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.
    [수학식 1]
  3. 제1항에 있어서, 상기 (c) 단계에서 상기 진폭(B)는 하기의 수학식 4를 이용하여 계산되며, 상기 (d) 단계에서 상기 진폭(A)은 하기의 수학식 5를 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.
    [수학식 4]
    [수학식 5]
KR1019980012630A 1998-04-09 1998-04-09 스펙트럼혼합여기신호의진폭모델링방법 KR100294918B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980012630A KR100294918B1 (ko) 1998-04-09 1998-04-09 스펙트럼혼합여기신호의진폭모델링방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980012630A KR100294918B1 (ko) 1998-04-09 1998-04-09 스펙트럼혼합여기신호의진폭모델링방법

Publications (2)

Publication Number Publication Date
KR19990079825A KR19990079825A (ko) 1999-11-05
KR100294918B1 true KR100294918B1 (ko) 2001-07-12

Family

ID=37527651

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980012630A KR100294918B1 (ko) 1998-04-09 1998-04-09 스펙트럼혼합여기신호의진폭모델링방법

Country Status (1)

Country Link
KR (1) KR100294918B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630012A (en) * 1993-07-27 1997-05-13 Sony Corporation Speech efficient coding method
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630012A (en) * 1993-07-27 1997-05-13 Sony Corporation Speech efficient coding method
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information

Also Published As

Publication number Publication date
KR19990079825A (ko) 1999-11-05

Similar Documents

Publication Publication Date Title
US7496505B2 (en) Variable rate speech coding
US7257535B2 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
JP4166673B2 (ja) 相互使用可能なボコーダ
CN104123946A (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法
US6345255B1 (en) Apparatus and method for coding speech signals by making use of an adaptive codebook
JP3446764B2 (ja) 音声合成システム及び音声合成サーバ
US8892428B2 (en) Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
US4975955A (en) Pattern matching vocoder using LSP parameters
KR20020039555A (ko) 음성부호화기의 유/무성음정보 추정방법
AU5870299A (en) Method for quantizing speech coder parameters
EP0810584A3 (en) Signal coder
KR100294918B1 (ko) 스펙트럼혼합여기신호의진폭모델링방법
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
US5937378A (en) Wideband speech coder and decoder that band divides an input speech signal and performs analysis on the band-divided speech signal
JP3292711B2 (ja) 音声符号化復号方法および装置
CN101496097A (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法
US6983241B2 (en) Method and apparatus for performing harmonic noise weighting in digital speech coders
JP4287840B2 (ja) 符号化装置
Gournay et al. A 1200 bits/s HSX speech coder for very-low-bit-rate communications
Yoon et al. Fixed point implementation of the QCELP speech coder
KR100202293B1 (ko) 혼합 다중대역 여기 모델에 기반한 음성 부호화 방법
KR100446595B1 (ko) 국소화특성을이용한선스펙트럼주파수의벡터양자화방법
JP2605256B2 (ja) Lspパタンマツチングボコーダ
Viswanathan et al. Voice-excited LPC coders for 9.6 kbps speech transmission
GB2266213A (en) Digital signal coding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080312

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee