KR20000069159A - 음성 신호 부호화 방법 및 그 장치 - Google Patents

음성 신호 부호화 방법 및 그 장치 Download PDF

Info

Publication number
KR20000069159A
KR20000069159A KR1019997004698A KR19997004698A KR20000069159A KR 20000069159 A KR20000069159 A KR 20000069159A KR 1019997004698 A KR1019997004698 A KR 1019997004698A KR 19997004698 A KR19997004698 A KR 19997004698A KR 20000069159 A KR20000069159 A KR 20000069159A
Authority
KR
South Korea
Prior art keywords
signal
speech
harmonics
transform
harmonic
Prior art date
Application number
KR1019997004698A
Other languages
English (en)
Inventor
쵸웨분
코수엔게
Original Assignee
칼 하인쯔 호르닝어
지멘스 악티엔게젤샤프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 칼 하인쯔 호르닝어, 지멘스 악티엔게젤샤프트 filed Critical 칼 하인쯔 호르닝어
Priority to KR1019997004698A priority Critical patent/KR20000069159A/ko
Publication of KR20000069159A publication Critical patent/KR20000069159A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성 신호를 다수의 프레임으로 표본화 및 분할한 후, 프레임에 대한 다중 대역 여기(multi­band excitation) 분석을 수행하여 기본 음조, 다수의 유성음/무성음 결정, 대역 내에서 고조파 진폭을 도출하는 음성 부호화 방법을 개시한다. 고조파 진폭을 고정된 개수의 제 1 고조파 그룹과 나머지 고조파로 된 제 2 고조파 그룹으로 나누고, 제 1 그룹에 이산 코사인 변환과 제 2 그룹에 비제곱 변환을 사용하여 이들 그룹을 별개로 변환하며, 이렇게 생성된 변환 계수들을 벡터 양자화하여 다수의 출력 지수를 형성한다. 복호화 방법과 부호화 및 복호화 방법을 수행하는 장치도 개시한다.

Description

음성 신호 부호화 방법 및 그 장치{A METHOD OF ENCODING A SPEECH SIGNAL}
많은 오디오 관련 제품에서는 예를 들어 음성 신호와 같은 오디오 신호를 디지탈화하여 전송하고 저장할 필요가 있다. 음성 신호를 직접 표본화한 후 재생하기보다는 오디오 신호의 주요 특징을 포함하는 합성 음성 신호를 구성한 다음 그 합성 신호를 복호화하여 재생하는 보코더(vocoder)가 종종 사용되고 있다.
보코더와 함께 사용되도록 제안된 부호화 알고리즘은 다중 대역 여기(Multi­Band Excitation(MBE)) 모델이라 불리는 음성 모델을 사용하는데, 다중 대역 여기 모델은 1988년 8월 발간된 IEEE Transactions on Acoustics, Speech and Signal Processing Volume 36 No. 8 1223쪽에 기재된 그리핀(Griffin)과 림(Lim)의 논문 "Multi­Band Excitation Vocoder"에서 제일 먼저 제안되었다. MBE 모델에서는 음성 신호를 다수의 프레임으로 분할하고, 그 프레임을 개별적으로 분석하여 그 프레임에서의 음성 신호를 모델링하는 파라미터 세트를 생성하며, 그 파라미터를 후속적으로 부호화하여 전송/저장한다. 각 프레임에 있는 음성 신호를 다수의 주파수 대역으로 분할하고, 각 주파수 대역에 대해 스펙트럼의 해당 부분이 유성음인지 무성음인지를 결정한 후, 유성음 결정은 주기적인 에너지로 표현하고 무성음 결정은 잡음 유사형 에너지로 표현한다. 모델을 사용함으로써, 각 프레임에서의 음성 신호는, 그 프레임 내의 음성 신호의 기본 주파수와, 주파수 대역에 대한 유성음/무성음 결정과, 각 대역에서 고조파에 대한 해당 진폭을 포함하는 정보로 특성화된다. 그 다음 이러한 정보를 변환하고 벡터 양자화하여 부호화기 출력으로 제공한다. 이 출력을 상기와 같은 과정의 역순으로 복호화한다. 다중 대역 여기 모델을 사용하는 보코더의 구현은 Digital Voice System Inc. 사의 "the Inmarsat­M Voice Codec, Version 3, August 1991 SDM/M Mod. 1/Appendix 1"에 나와 있다.
이러한 보코더를 구현하는 경우 기본적인 음조 주기와 고조파의 수가 프레임마다 달라지는 문제점이 있는데, 그 이유는 음조 주기와 고조파의 수와 같은 특성들이 발성자에 따라 달라지기 때문이다. 예를 들어, 남자의 음성은 일반적으로 낮은 기본 주파수와 많은 고조파 성분을 갖는 반면, 여자의 음성은 높은 기본 주파수와 적은 고조파를 갖는다. 이로 인해 가변 차원 벡터 양자화 문제가 발생하게 된다. 이러한 문제점을 해결하기 위해 사전 규정된 수의 고조파만을 선택함으로써 음성 신호의 일부분을 잘라내는 방안이 제안되었다. 그러나, 이러한 접근 방안은 특히 재생된 음성 신호의 발성자를 알아낼 필요가 있는 경우에는 용납할 수 없을 만큼 큰 음질 저하를 일으킨다.
이러한 문제를 완화시키기 위해, 루피니(Lupini)와 쿠퍼만(Cuperman)이 1996년 1월자 IEEE Signal Processing Letters, Volume 3, No. 1에 제안하고, 쿠퍼만(Cuperman), 루피니(Lupini), 배타캐랴(Bhattacharya)가 IEEE International Conference on Acoustics, Speech and Signal Processing Volume 1에 기고한 논문 "Spectral Excitation Coding of Speech at 2.4 kb/s"과 같이 비제곱 변환(Non­Square Transformation: NST) 벡터 양자화를 사용하는 제안도 있었다. 이러한 접근법에 있어서, NST는 여러 개의 스펙트럼 고조파 진폭을 고정된 개수의 변환 계수로 변환시킨 후 그 변환 계수를 벡터 양자화한다.
그러나, 이러한 제안은 비제곱 변환 연산과 관련하여 매우 복잡한 계산이 포함된다는 단점이 있다. 그 이유는, 가변 차원 벡터를 이 제안에 따라 30 또는 40 개의 고정 차원 벡터로 변환하기 위해서는 매우 복잡한 계산을 해야 하면서 변환 매트릭스의 모든 구성 원소를 저장하기 위한 큰 메모리를 필요로 하기 때문이다. 추천된 고정 차원 벡터도 또한 계산량이 많아 비용이 많이 드는 일 단계 양자화를 필요로 한다. NST 벡터 양자화의 또다른 단점은, 벡터 양자화기의 코드북의 크기가 작은 경우에 이 기법이 음성 신호의 왜곡을 초래하여 재생된 음성의 인지되는 음질을 떨어뜨린다는 점이다.
몇 가지 응용예에서는 낮은 비트 레이트로, 예를 들어 2.4 kbps 이하로 음성을 부호화하는 것을 필요로 한다. 이런 방법으로 부호화된 음성 신호는 그 신호를 디지탈적으로 저장하기 위해 보다 적은 메모리를 필요로 하므로 그 비트 레이트를 사용하면 소자 비용이 절감된다. 그러나, 왜곡이란 문제를 일으키면서 결과적으로 고도의 계산 급수와 많은 메모리를 필요로 하는 NST 벡터 양자화를 사용하는 경우, 낮은 비트 레이트로 음성을 저렴하게 부호화하고 저장하는 문제에 대한 실용적인 해결책을 제공할 수 없다.
발명의 요약
본 발명의 목적은 상기 종래 기술의 단점 중 적어도 하나를 완화시키는 음성 부호화 방법 및 그 장치를 제공하는 것이다.
본 발명의 첫 번째 특징에 따르면 음성 신호를 부호화하는 방법이 제공되는데, 이 방법은
음성 신호를 표본화하는 단계와,
표본화된 음성 신호를 다수의 프레임으로 분할하는 단계와,
각 프레임 내의 신호에 대하여 다중 대역 여기(multi­band excitation) 변환을 수행하여 기본 음조, 신호 내의 주파수 대역에 대한 다수의 유성음/무성음 결정, 상기 대역 내의 다수의 고조파 진폭을 도출하는 단계와,
다수의 고조파 진폭을 변환하여 다수의 변환 계수를 형성하는 단계와,
계수를 벡터 양자화하여 다수의 지수를 형성하는 단계
를 포함하고, 고조파 진폭을 고정 개수의 고조파로 이루어진 제 1 그룹과 나머지 고조파로 이루어진 제 2 그룹으로 나누되, 제 1 및 제 2 그룹에 상이한 변환을 수행함으로써 각각 제 1 및 제 2 변환 계수 세트를 형성한 후 양자화하는 것을 특징으로 하는 음성 신호 부호화 방법을 제공한다.
바람직하게는 제 1 변환은 사전 규정된 수만큼의 최초 고조파들을 동일한 수의 제 1 변환 계수로 변환하는 이산 코사인 변환(Discrete Cosine Transform: DCT)이다. 제 2 변환은 고조파의 그 나머지를 고정된 수의 제 2 변환 계수로 변환하는 비제곱 변환(Non­Square Transform: NST)이 바람직하다.
가장 바람직하게는 제 1 그룹은 오디오 신호 중 최초 8 개의 고조파를 포함하되 이들 8 개의 고조파를 8 개의 변환 계수로 변환하고, 제 2 그룹은 고조파의 그 나머지를 포함하되 그 나머지 고조파도 또한 8 개의 변환 계수로 변환된다.
본 발명의 방법에 따라 제 1 그룹은 재생되는 음성 신호를 인식하는 데 가장 중요한 고조파들로 선택된다. 이러한 고조파의 개수가 일정하므로 DCT와 같은 고정 차원 변환을 사용함으로써, 왜곡을 최소화하고 가장 중요한 파라미터의 차원을 변화시키지 않을 수 있다. 한편, NST 가변 차원 변환을 사용하여 남아 있는 덜 중요한 고조파를 변환한다. 단지 덜 중요한 고조파만을 NST를 사용하여 변환하므로 오디오 신호의 재생시 왜곡을 최소로 할 수 있다.
또한 고조파를 두 개의 그룹으로 나누므로, 결과적으로 더 작아진 벡터를 변환하고 부호화하기 위해 필요한 계산 급수를 더 작게 할 수 있고, 이에 따라 부호화기에 필요한 계산 급수를 줄일 수 있다.
본 발명의 제 2 특징에 따르면, 음성 분석을 위해 입력 데이터 신호를 복호화하는 방법이 제공되는데, 이 방법은 데이터 신호에 대한 다수의 지수를 벡터 역양자화하여 제 1 및 제 2 변환 계수 세트를 형성하는 단계와, 제 1 및 제 2 계수 세트를 변환하여 각각의 제 1 및 제 2 고조파 진폭 그룹을 도출하는 단계와, 입력 데이터 신호로부터 음조와 유성음/무성음 결정 정보를 도출하는 단계와, 상기 정보와 상기 고조파 진폭에 대한 다중 대역 여기 분석을 수행하여 합성된 음성 신호를 형성하는 단계와, 상기 합성된 신호로부터 음성 신호를 구성하는 단계를 포함한다.
본 발명의 제 3 특징에 따르면, 음성 부호화 장치가 제공되는데, 이 장치는 음성 신호를 표본화한 후 표본화된 신호를 다수의 프레임으로 분할하는 수단과, 각 프레임 내의 주파수 대역에 대한 기본 음조 및 다수의 유성음/무성음 결정과 상기 대역 내의 다수의 고조파 진폭을 도출하는 다중 대역 여기 합성기와, 고조파 진폭을 변환하여 다수의 변환 계수를 형성하는 변환 수단과, 상기 계수를 양자화하여 다수의 지수를 형성하는 벡터 양자화 수단을 포함하되, 상기 변환 수단은 제 1 고정 개수의 고조파를 제 1 변환 계수 세트로 변환하는 제 1 변환 수단과, 상기 고조파 진폭의 나머지를 제 2 변환 계수 세트로 변환하는 제 2 변환 수단을 포함하는 것을 특징으로 한다.
본 발명의 제 4 특징에 따르면, 음성 합성을 위해 입력 데이터 신호를 복호화하는 복호화 장치가 제공된다. 이 장치는 다수의 지수를 역양자화하여 적어도 두 개의 변환 계수 세트를 형성하는 벡터 역양자화 수단과, 제 1 및 제 2 계수 세트를 각각 역변환하여 제 1 및 제 2 고조파 진폭 그룹을 도출하는 제 1 및 제 2 변환 수단과, 입력 신호로부터의 음조 및 유성음/무성음 결정 정보를 고조파와 결합하는 다중 대역 여기 합성기와, 합성기 출력으로부터 음성 신호를 구성하는 수단을 포함한다.
본 발명은 음성 신호를 부호화하는 방법과 그 장치에 관한 것으로, 전적으로 그런 것은 아니지만, 낮은 비트 레이트로 전송하고 저장하는 음성 부호화 방법과 그 장치에 관한 것이다.
본 발명에 따른 한 실시예를, 첨부하는 도면을 참조하여, 예시를 목적으로 기술한다.
도 1은 본 발명에 따른 부호화 장치의 일 실시예에 대한 블럭도이고,
도 2는 도 1에 따른 실시예를 사용하여 부호화된 음성을 복호화하는 본 발명에 따른 복호화 장치의 일 실시예에 대한 블럭도이다.
발명의 상세한 설명
도 1을 참조하면, 본 발명에 따른 부호화 장치의 일 실시예가 도시되어 있다.
본 실시예는 다중 대역 여기(Multi­Band Excitation: MBE) 음성 부호화기에 기반한 것으로, 이 부호화기에서는 입력 음성 신호가 블록(100)에서 표본화된 후 아날로그에서 디지탈(A/D)로 변환된다. 그 다음에 블럭(110)에서 MBE 모델을 사용하여 표본이 분석된다. MBE 분석은 표본을 160 개의 표본으로 된 프레임으로 집단화하고, 각 프레임에 대하여 이산 푸리에 변환(discrete Fourier transform)을 수행하며, 프레임의 기본 음조를 도출하고, 프레임 고조파를 다수의 대역으로 분할하되, 각 대역에 대한 유성음/무성음 여부를 결정하는 것이다. 그 다음에 통상적인 MBE 양자화기(120)를 사용하여 이러한 정보를 양자화한 후(음조 정보는 8 비트로 스칼라 양자화되고, 유성음/무성음 여부 결정은 1 비트로 표현됨), 블럭(130)에서 후술하는 바와 같이 벡터 양자화된 고조파와 조합함으로써 각 프레임을 전송 또는 저장을 위해 디지탈로 표현한다.
또한 단계(110)에서의 MBE 분석은 음성 신호의 프레임 내에서의 고조파 하나에 고조파 진폭 하나씩 고조파 진폭 출력을 제공한다. 고조파 진폭의 개수 N은 프레임 내의 음성 신호에 따라 달라지고 두 개의 그룹으로 분할되는데, 두 그룹은, 일반적으로 프레임에서 가장 중요한 고조파인 최초 8 개의 고조파로 된 고정 크기의 그룹과 그 나머지 고조파로 된 가변 크기의 그룹이다. 최초 8 개까지의 고조파는 블럭(140)에서 이산 코사인 변환(DCT)된 후 블럭(150)에서 최초 8 개의 변환 계수를 포함하는 제 1 형상 벡터를 형성한다. 남아 있는 N­8 개의 고조파는 블럭(160)에서 비제곱 변환(Non­Square Transformation: NST)된 후 블럭(170)에서 8개의 최후 변환 계수를 형성한다. 일반적으로 가장 중요한 고조파로서 DCT 변환되는 최초 8 개의 고조파는 정확하게 변환된다. 나머지 고조파는 NST를 사용하여 덜 정확하게 변환되지만, 이들 나머지 고조파는 덜 중요하므로 계산 요건이 완화됨에도 불구하고 복호화된 음성의 음질이 크게 떨어지지는 않는다.
그 다음에 블럭(150, 170)에서 형성된 변환 계수들은 각각 정규화되어 하나의 이득값과 8 개의 정규화된 계수가 생성된다. 이득값들은 블럭(180)에서 결합되어 단일 이득 벡터가 되고(이득 벡터에서 최초 및 최후 변환 계수에 대한 이득값들은 각기 독립성이 유지됨), 그 다음에 개별적인 벡터 코드북에 따라 벡터 양자화기(190, 200, 210)에서 정규화된 계수와 이득 벡터들이 양자화된다.
도시한 바와 같이, 최초 8 개의 변환 계수에 대한 코드북은 256×8 차원이고, 최후 변환 계수에 대한 코드북은 512×8 차원이며, 이득값에 대한 코드북은 2048×2 차원이다. 코드북의 크기는 부호화되는 정보에 요구되는 근사 정도에 따라 변화될 수 있는데, 코드북이 크면 클수록 보다 큰 계산 급수와 메모리를 필요로 하는 대신에 양자화 공정이 보다 정확해진다.
양자화기(190 내지 210)로부터의 출력은 세 개의 코드북 지수(I1 내지 I3)로, 이들 지수들은 블럭(130)에서 양자화된 음조 및 유성음/무성음 정보와 결합되어 각 프레임에 대한 디지탈 데이터 신호를 생성한다. 블럭(130)에서의 조합 과정에서는 각 요소를 사전 규정된 순서대로 이산값이 되도록 유지하여 후술하는 바와 같이 복호화되게 한다.
도 2를 참조하면, 도 1에 도시한 부호화기와 반대로 동작하여 도 1의 출력 신호를 복호화하는 복호화기가 도시되어 있는데, 이 복호화기에서는 도 1에 도시한 블럭과 유사하지만 반대 기능을 갖는 블럭들이 도 1에 도시한 참조 부호에 200을 더한 부호값으로 지칭되어 있다.
블럭(330)에서 데이터 신호는 그 신호의 구성 요소 부분과, 지수(I1 내지 I3)와, 양자화된 음조 및 유성음/무성음 결정 정보로 분할된다. 세 개의 코드북 지수(I1 내지 I3)는 블럭(390, 400, 410) 내의 각 코드북으로부터 올바른 값을 추출함으로써 복호화된다. 그 다음에 블럭(380)에서 각 변환 계수 세트에 대한 이득 정보가 추출되고 블럭(382, 384)에서 출력 정규화된 계수와 곱해지며, 블럭(350, 370)에서 8개의 최초 및 최후 변환 계수를 형성한다. 두 변환 계수 그룹은 블럭(340, 360)에서 역변환된 후, 복호화 표를 사용하여 8 비트 데이터를 복호화하는 MBE 역양자화기(330)로부터 추출되는 음조와 유성음/무성음 결정 정보와 함께 다중 대역 여기 합성기(310)로 출력된다.
그 다음에 MBE 합성기(310)는 분석기(110)의 역동작을 수행함으로써, 신호 성분을 결합하고, 무성음 대역에 대한 이산 푸리에 역변환을 수행하며, 복호화된 고조파 진폭을 사용하여 유성음을 합성함으로써 유성음 대역에 대한 정현파 오실레이터(sinusoidal oscillator) 세트를 제어하고, 합성된 유성음 및 무성음 신호를 각 프레임 내에 결합하며, 프레임을 연결하여 신호 출력을 형성한다. 그 다음에 합성기(310)로부터의 신호 출력을 블럭(300)에서 디지탈 대 아날로그 변환기에 입력하여 오디오 신호를 형성한다.
본 발명의 실시예는 예를 들어 디지탈 자동 응답기 또는 디지탈 구술기와 같이 디지탈 형태로 오디오 신호를 저장할 필요가 있는 장치에 특히 적용하기 좋다. 발성자가 누구인지를 인식하는 것이 요구되지만 동시에 비교적 값싼 가전 제품으로서 디지탈 부호화를 계산할 수 있고 메모리 요건을 완화시키기 위한 요건이 있으므로 본 발명에 따른 실시예를 디지탈 자동 응답기에 특히 적용할 만하다. 본 발명의 실시예를 사용하면 2.4 kbps의 비트 레이트로 디지탈 정보를 저장할 수 있는데, 이는, 다른 기법, 예를 들어, 장거리 음성 음질에 대해 16 kbps를 필요로 하는 부호화 여기 선형 예측(Code Excited Linear Prediction)을 사용하여 고음질 음성을 다른 기법보다 비교적 적은 저장 용량을 필요로 하면서도 발성자를 인식할 수 있을 정도로 음성을 재생하게 된다.
전술한 실시예는 한정적인 것으로 해석되지 않아야 한다. 예를 들어, 신호에서 최초 8 개의 고조파들을 고정된 차원 변환을 수행하는 첫번째 고조파 그룹으로 선택하지만, 요건에 따라 다른 개수의 고조파들을 선택할 수 있다. 또한 두 그룹을 변환하기 위해서는 이산 코사인 변환과 비제곱 변환이 바람직하지만, 웨이브렛(wavelet) 및 정수 변환 또는 기법과 같은 다른 변환을 사용할 수 있다. 벡터 양자화 코드북의 크기는 요구되는 양자화의 정확도에 따라 달라질 수 있다.

Claims (21)

  1. 음성 신호를 부호화하는 방법에 있어서,
    상기 음성 신호를 표본화하는 단계와,
    상기 표본화된 음성 신호를 다수의 프레임으로 분할하는 단계와,
    각 프레임 내의 상기 신호에 대하여 다중 대역 여기(multi­band excitation) 분석을 수행하여 기본 음조, 상기 신호 내의 주파수 대역에 대한 다수의 유성음/무성음 결정, 상기 대역 내의 다수의 고조파의 진폭을 도출하는 단계와,
    상기 다수의 고조파 진폭을 변환하여 다수의 변환 계수를 형성하는 단계와,
    상기 계수를 벡터 양자화하여 다수의 지수를 형성하는 단계
    를 포함하고, 상기 고조파 진폭을 고정 개수의 고조파로 이루어진 제 1 그룹과 그 나머지 고조파로 이루어진 제 2 그룹으로 나누되, 상기 제 1 및 제 2 그룹에 상이한 변환을 수행함으로써 각각 제 1 및 제 2 변환 계수 세트를 형성한 후 양자화하는 것을 특징으로 하는 음성 신호 부호화 방법.
  2. 제 1 항에 있어서,
    상기 제 1 그룹이 이산 코사인 변환(Discrete Cosine Transform: DCT)을 사용하여 변환되는 음성 신호 부호화 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 그룹이 비제곱 변환(Non­Square Transform)을 사용하여 변환되는 음성 신호 부호화 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 2 그룹이 상기 제 1 그룹과 같은 수의 변환 계수로 변환되는 음성 신호 부호화 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 1 그룹이 각 프레임 내에 신호의 최초 8 개의 고조파를 포함하는 음성 신호 부호화 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 변환 계수가 정규화되어 이득값과 다수의 정규화된 계수를 형성하되, 상기 이득값들은 상기 정규화된 계수 세트와 별개로 양자화되는 음성 신호 부호화 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 의한 음성 신호 부호화 방법에 의해 부호화된 신호를 복호화하는 방법에 있어서,
    상기 지수를 역양자화하는 단계와,
    상기 변환 계수를 역변환하여 상기 다수의 고조파 진폭을 형성하는 단계와,
    다중 대역 여기 합성에 대한 다수의 다중 유성음/무성음 결정, 기본 음조, 다수의 고조파 진폭을 결합하여 음성 신호를 구성하는 단계
    를 포함하는 음성 신호 복호화 방법.
  8. 음성 합성을 위하여 입력 데이터 신호를 복호화하는 방법에 있어서,
    상기 데이터 신호에 대한 다수의 지수를 벡터 역양자화하여 제 1 및 제 2 변환 계수 세트를 형성하는 단계와,
    상기 제 1 및 제 2 계수 세트를 역변환하여 각각의 제 1 및 제 2 고조파 진폭 그룹을 도출하는 단계와,
    상기 입력 데이터 신호로부터 음조와 유성음/무성음 결정 정보를 도출하는 단계와,
    상기 정보와 상기 고조파 진폭에 대한 다중 대역 여기 합성을 수행하여 합성된 음성 신호를 형성하는 단계와,
    상기 합성된 신호로부터 음성 신호를 구성하는 단계
    를 포함하는 입력 데이터 신호 복호화 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 의한 방법을 수행하는 장치.
  10. 음성 부호화 장치에 있어서,
    음성 신호를 표본화하고, 상기 표본화된 신호를 다수의 프레임으로 분할하는 수단과,
    각 프레임 내의 주파수 대역에 대한 다수의 유성음/무성음 결정 및 기본 음조와 상기 대역 내의 다수의 고조파 진폭을 도출하는 다중 대역 여기 분석기와,
    상기 고조파 진폭을 변환하여 다수의 변환 계수를 형성하는 변환 수단과,
    상기 계수를 양자화하여 다수의 지수를 형성하는 벡터 양자화 수단
    을 포함하고, 상기 변환 수단은 제 1 고정 개수 고조파를 제 1 변환 계수 세트로 변환하는 제 1 변환 수단과, 상기 고조파 진폭의 나머지를 제 2 변환 계수 세트로 변환하는 제 2 변환 수단을 포함하는 것을 특징으로 하는 음성 부호화 장치.
  11. 제 9 항에 있어서,
    상기 제 1 변환 수단이 이산 코사인 변환을 수행하는 음성 부호화 장치.
  12. 제 9 항에 있어서,
    상기 제 2 변환 수단은 비제곱 변환을 수행하는 음성 부호화 장치.
  13. 제 10 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 제 1 변환 수단은 프레임 중 최초 8 개의 고조파에 대하여 상기 변환을 수행하는 음성 부호화 장치.
  14. 제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 제 2 변환 수단은 상기 고조파의 나머지를 상기 제 1 변환 계수 세트와 같은 수의 제 2 변환 계수 세트로 변환하는 음성 부호화 장치.
  15. 제 10 항 내지 제 14 항에 있어서,
    상기 벡터 양자화 수단은 각 변환 계수 세트에 대응하는 코드북을 포함하는 음성 부호화 장치.
  16. 제 10 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 장치는,
    상기 변환 계수 세트들을 정규화된 계수 세트들과 각각의 이득값으로 분리하는 수단을 더 포함하는 음성 부호화 장치.
  17. 제 16 항에 있어서,
    상기 벡터 양자화 수단은 상기 이득값에 대한 별개의 코드북을 포함하는 음성 부호화 장치.
  18. 음성 합성을 위해 입력 데이터 신호를 복호화하는 복호화 장치에 있어서,
    다수의 지수를 역양자화하여 적어도 두 개의 변환 계수 세트를 형성하는 벡터 역양자화 수단과,
    상기 제 1 및 제 2 계수 세트를 각각 변환하여 제 1 및 제 2 고조파 진폭 그룹을 도출하는 제 1 및 제 2 변환 수단과,
    상기 입력 신호로부터의 음조와 유성음/무성음 결정 정보를 상기 고조파와 결합하는 다중 대역 여기 합성기와,
    상기 합성기의 출력으로부터 음성 신호를 구성하는 수단
    을 포함하는 복호화 장치.
  19. 제 10 항 내지 제 17 항 중 어느 한 항에 따른 음성 부호화 장치와 제 18 항에 따른 음성 복호화 장치를 결합한 장치.
  20. 제 10 항 내지 제 19 항 중 어느 한 항에 따른 장치를 포함하는 음성 저장 및 재생 장치.
  21. 제 10 항 내지 제 19 항 중 어느 한 항에 따른 장치를 포함하는 전화 자동 응답기.
KR1019997004698A 1999-05-28 1997-09-30 음성 신호 부호화 방법 및 그 장치 KR20000069159A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019997004698A KR20000069159A (ko) 1999-05-28 1997-09-30 음성 신호 부호화 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019997004698A KR20000069159A (ko) 1999-05-28 1997-09-30 음성 신호 부호화 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20000069159A true KR20000069159A (ko) 2000-11-25

Family

ID=54774292

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019997004698A KR20000069159A (ko) 1999-05-28 1997-09-30 음성 신호 부호화 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20000069159A (ko)

Similar Documents

Publication Publication Date Title
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US7996233B2 (en) Acoustic coding of an enhancement frame having a shorter time length than a base frame
KR100304092B1 (ko) 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
CA2254567C (en) Joint quantization of speech parameters
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
JP2004310088A (ja) 半レート・ボコーダ
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
US6269332B1 (en) Method of encoding a speech signal
JPH11177434A (ja) 音声符号化復号方式
KR20060131793A (ko) 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
WO2002021091A1 (fr) Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
JP2000132194A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JPH05265487A (ja) 高能率符号化方法
US5943644A (en) Speech compression coding with discrete cosine transformation of stochastic elements
KR20000069159A (ko) 음성 신호 부호화 방법 및 그 장치
JPH0990989A (ja) 変換符号化方法および変換復号化方法
JP3137550B2 (ja) 音声符号化・復号化装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
Bakır Compressing English Speech Data with Hybrid Methods without Data Loss
JPH11352999A (ja) 音声圧縮符号化装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid