KR100427752B1

KR100427752B1 - 음성부호화방법 및 장치

Info

Publication number: KR100427752B1
Application number: KR1019960047282A
Authority: KR
Inventors: 가쯔유끼 이지마; 마사유끼 니시구찌; 준 마츠모또; 시로 오모리
Original assignee: 소니 가부시끼 가이샤
Priority date: 1995-10-26
Filing date: 1996-10-21
Publication date: 2004-07-19
Also published as: KR970024627A; DE69619054T2; CN1156872A; ATE213086T1; JPH09127990A; DE69619054D1; JP3680380B2; EP0770989B1; US5828996A; EP0770989A3; SG43428A1; EP0770989A2

Abstract

입력음성신호를 블록을 기초로 분할하여 그 결과의 블록이 단위가 되는 식으로 부호화하는 부호화장치이다. 본 부호화장치는 잡음코드북(121)을 가지고서 CELP부호화를 행하는 부호화부(120)를 포함하며, 상기 가우스잡음을 클립핑하여 생성되는 코드벡터와 가우스잡음을 클립핑함으로써 생성되는 코드북벡터를 초기값으로 이용하여 학습함으로써 얻어지는 코드북벡터로 이루어져 있다. 본 부호화장치는 다양한 음성형태에 대해 최적의 부호화를 행할 수 있다.

Description

음성부호화방법 및 장치

본 발명은 입력음성신호를 블록기준으로 분할하여 그 결과의 블록을 1단위로 하는 식으로 부호화하는 음성부호화방법 및 장치에 관한 것이다.

지금까지 시간영역 및 주파수영역내의 신호에 대한 통계적특성과 사람의 귀에 대한 정신음향적인 특성을 이용하여 압축을 위해 (음성 및 음향신호를 포함하는) 오디오신호를 부호화하기 위한 여러가지 부호화방법이 알려져 있다. 그러한 부호화방법은 대체로 시간영역부호화, 주파수영역부호화 및 분석/합성부호화로 분류된다. 음성신호에 대한 고효율의 부호화의 예는 고조파부호화, 멀티밴드여기(勵起)(MBE)부호화, 서브밴드부호화(SBC), 선형예측부호화(LPC),이산코사인변환(DCT), 변형된 이산코사인변환(MDCT) 및 고속푸리에변환(FFT) 등과 같은 정현분석부호화(sinusoidal analysis encoding)를 포함한다. 음성신호에 대한 고효율의 부호화의 다른 예는 분석방법에 의한 합성을 이용하는 최적의 벡터 폐루프탐색에 의한 코드여기(勵起)선형예측(CELP;Code Excited Linear Prediction)부호화를 포함한다.

음성신호에 대한 고효율 부호화의 일예로, 코드여기(勵起)선형예측에 있어서, 부호화질은 부호화된 음성신호의 특성에 굉장한 영향을 받는다. 예를들어, "사, 시, 수, 세, 소" 등의 잡음에 가까운 자음 또는 "파, 피, 푸, 페, 포" 등의 높은 음조의 상승부를 갖는 자음(급격한 상승자음)을 포함하는 모든 음성에 대해 양호한 부호화를 달성하기 어려운 각종 형태의 음성이 있다.

따라서, 본 발명은 각종 형태의 음성을 양호하게 부호화할 수 있는 음성부호화방법 및 장치를 제공하기 위한 것을 목적으로 하고 있다.

본 발명의 음성부호화방법 및 장치는 시간축에서 입력음성신호를 분할할 때 얻어지는 블록을 1단위로 하는 식으로 부호화를 행하며, 가우스잡음을 복수의 임계값과 클립핑(clipping)하여 벡터양자화용 코드북이 얻어지는 분석/합성방법을 이용하여 최적의 벡터의 폐루프탐색에 의해 시간영역 파형벡터양자화를 수행한다.

즉, 본 발명에 따르면, 가우스잡음을 서로 다른 복수의 임계값과 벡터클립핑하여 얻어진 코드벡터가 벡터양자화를 수행하는 데 사용되어 다양한 음성형태를 수습한다.

도 1은 본 발명을 따르는 부호화방법을 수행하기 위한 음성신호 부호화벙법 및 음성신호 부호화장치(엔코더)의 기본구조를 나타내는 블록도이다.

도 2는 복호화장치(디코더)인 음성신호 복호화장치(디코더)의 기본구조를 나타내는 블록도이다.

도 3은 도 1에 나타낸 음성신호 엔코더의 보다 상세한 구조를 나타내는 블록도이다.

도 4는 도 2에 나타낸 음성신호 디코더의 보다 상세한 구조를 나타내는 블록도이다.

도 5는 LPC양자화기의 기본구조를 나타내는 블록도이다.

도 6은 LPC양자화기의 보다 상세한 구조를 나타내는 블록도이다.

도 7은 벡터양자화기의 기본구조를 나타내는 블록도이다.

도 8은 벡터양자화기의 보다 상세한 구조를 나타내는 블록도이다.

도 9는 본 발명의 음성신호 엔코더의 CELP부호화부(제 2부호화부)의 상세한 구조를 나타내는 블록회로도이다.

도 10은 도 9의 구성에 있어 처리흐름을 설명하기 위한 플로우차트도이다.

도 11a 및 도 11b는 서로 다른 임계값으로 클립핑한 후 가우스잡음을 설명하는 도면이다.

도 12는 학습으로 형상코드북을 생성할 때의 처리흐름을 나타내는 플로우차트도이다.

도 13은 본 발명을 구체화하는 음성신호 엔코더를 이용하는 휴대단말기의 송신측의 구조를 나타내는 블록도이다.

도 14는 도 13의 대응장치인 음성신호 디코더를 이용하는 휴대단말기의 수신측의 구조를 나타내는 블록도이다.

도 15는 본 발명의 음성신호 엔코더에 있어서의 서로 다른 비트속도에 대한 출력데이터를 나타내는 표이다.

*도면의 주요부분에 대한 부호의 설명

110. 제 1부호화부 111. 역LPC필터

113. LPC분석/양자화부 114. 정현분석엔코더

115. V/UV판별부 116. 벡터양자화부

117, 118, 127. 스위치 120. 제 2부호화부

121. 잡음코드북 122. 가중합성필터

123. 감산기 124. 거리계산회로

125. 청각가중필터 132. LPC분석

133. α→LSP변환회로 134. LSP양자화기

136. LSP보간처리회로 137. LSP→α변환회로

139. 청각가중필터계산회로 141. 개루프음조탐색부

142. 제로크로싱카운터 145. 직교변환회로

146. 고정밀음조탐색부 148. 스펙트럼평가부

211. 유성음성합성부 212. 역벡터양자화기

213. LPC파라미터재생부 214. LPC합성필터

220. 무성음성합성부 221. 잡음코드북

222. 이득회로 223. 윈도우처리회로

231. 역벡터양자화기 232, 233. LSP보간처리회로

234, 235. LSP→α변환회로 236, 237. LPC합성필터

238v. 유성음용 포스트필터 238u. 무성음용 포스트필터

도면을 참고로 하여, 본 발명의 적절한 실시예를 상세히 설명한다.

도 1에 있어서의 블록도에는, 본 발명의 음성부호화방법을 수행하는 음성신호 엔코더의 기본 구조가 나타나 있다. 음성신호 엔코더는 입력음성신호의 단기간 예측잔차를 구하기 위한 수단으로써의 역LPC필터(111)와, 단기간 예측잔차로부터 정현분석 부호화파라미터를 구하기 위한 수단으로써의 정현분석엔코더(114)를 포함하고 있다. 음성신호 엔코더는 또한 정현분석 부호화파라미터에 대해 청각가중 벡터양자화를 수행하기 위한 수단으로써의 벡터양자화기(116)와, 위상전송파형부호화를 이용해 입력음성신호를 부호화하기 위한 제 2부호화부(120)를 포함한다.

도 2는 도 1에 나타낸 부호화장치의 대응장치(디코더)인 음성신호 복호화장치(디코더)의 기본 구조를 나타내며, 도 3은 도 1에 나타낸 음성신호 엔코더의 보다 상세한 구조를 나타내는 블록도이고, 도 4는 도 2에 나타낸 음성디코더의 보다 상세한 구조를 나타내는 블록도이다.

도 1∼도 4의 블록도의 구조를 설명한다.

도 1의 음성신호 엔코더의 기본 개념은 엔코더가 고조파부호화등의 정현분석부호화를 수행하기 위하여 입력음성신호에 대한, 선형예측부호화(LPC)잔차 등의 단기간 예측잔차를 탐색하기 위한 제 1부호화부(110)와, 위상재생도를 나타내는 파형부호화를 이용해 입력음성신호를 부호화하기 위한 제 2부호화부(120)를 포함하는 것과, 제 1 및 제 2부호화부(110, 120)가 각각 입력신호의 유성음부 및 무성음부를부호화하기 위해 사용되는 것에 있다.

제 1부호화부(110)는 LPC잔차를 고조파부호화 또는 멀티밴드부호화(MBE)등의 정현분석부호화로 부호화하는 구성을 갖는다. 제 2부호화부(120)는 분석/합성방법을 이용하는 최적의 벡터를 위해 폐루프탐색에 의한 벡터양자화를 이용하는 코드여기(勵起)선형예측(CELP)의 구성을 갖는다.

본 실시예에 있어서, 입력단자(101)에 인가되는 음성신호는 제 1부호화부(110)의 역LPC필터(111)와 LPC분석/양자화기(113)로 보내진다. LPC분석/양자화기(113)로부터 산출된 LPC계수 또는 소위 α-파라미터는 역LPC필터(111)에 의한 입력음성신호의 선형예측잔차(LPC잔차)를 도출하기 위한 역LPC필터(111)로 보내진다. LPC분석/양자화기(113)로부터는, 선형스펙트럼쌍(LSP)가 후술한 바와같이 도출되어 출력단자(102)로 보내진다. 역LPC필터(111)로부터의 LPC잔차는 정현분석부호화부(114)로 보내진다. 정현분석부호화부(114)는 음조검출, 스펙트럼포락선 진폭계산 및 유성음(V)/무성음(UV)판별부(115)에 의한 V/UV판별을 행한다. 정현분석부호화부(114)로부터의 스펙트럼포락선 진폭데이터는 벡터양자화기(116)로 보내진다. 스펙트럼포락선의 벡터양자화출력으로써 벡터양자화기(116)로부터의 코드북지수는 스위치(117)를 통해서 출력단자(103)로 보내지는 한편, 정현분석부호화부(114)의 출력은 스위치(118)를 통해서 출력단자(104)로 보내진다. V/UV판별부(115)로부터의 V/UV판별출력은 출력단자(105)로 보내지는 한편, 스위칭제어신호로써 스위치(117, 118)로 보내진다. 유성음(V)신호를 위해, 지수와 음조는 출력단자(103, 104)로 도출되도록 선택된다.

본 실시예에 있어서, 도 1의 제 2부호화부(120)는 코드여기(勵起)선형예측(CELP)부호화구조를 가지고 있어, 잡음코드북(121)의 출력이 가중합성필터(122)에 의해 합성되는 분석/합성방법을 이용하는 폐루프탐색에 의해 시간영역파형의 벡터양자화를 수행하며, 그 결과의 가중된 음성은 감산기(123)에 인가되어, 여기서 상기 가중된 음성과 입력단자(101)로 인가되어 가중필터(125)를 통과하는 음성신호간의 오차가 도출되어서, 거리계산회로(124)로 보내져서 거리계산을 수행하게 되며, 상기 오차를 최소화하는 벡터가 잡음코드북(121)에 의해 탐색된다. 이러한 CELP부호화는 상술한 바와같이 무성음부를 부호화하는데 사용된다. 잡음코드북(121)으로부터의 UV데이터로써의 코드북지수는 V/U판별부(115)로부터의 V/UV판별결과가 무성음(UV)을 나타낼 때 턴온되는 스위치(127)를 통해서 출력단자(107)에서 도출된다.

도 2는 도 1의 음성신호 엔코더의 대응장치로써, 본 발명을 따르는 음성복호화방법을 수행하기 위한 음성신호 디코더의 기본 구조를 나타내는 블록도이다.

도 2를 참고로 하면, 도 1의 출력단자(102)로부터의 선형스펙트럼쌍(LPS)의 양자화출력으로써의 코드북지수는 입력단자(202)로 인가된다. 도 1의 출력단자(103, 104 및 105)의 출력들, 즉 포락선 양자화출력으로써의 지수데이터, 음조 및 V/UV판별출력들은 각각 입력단자(203∼205)로 인가된다. 무성음데이터용 데이터로써의 지수데이터는 도 1의 출력단자(107)에서 입력단자(207)로 인가된다.

입력단자(203)의 양자화출력으로써의 지수는 역벡터양자화를 위해 역벡터양자화기(212)로 보내져서 유성음성합성부(211)로 보내지는 LPC잔차의 스펙트럼포락선을 구하게 된다. 유성음성합성부(211)는 정현합성을 이용해 유성음성부의 선형예측부호화(LPC)잔차를 합성한다. 유성음성합성부(211)에는 또한 입력단자(204, 205)로부터의 음조와 V/UV판별출력이 인가된다. 유성음성합성부(211)로부터의 유성음성에 대한 LPC잔차는 LPC합성필터(214)로 보내진다. 입력단자(207)로부터의 UV데이터의 지수데이터는 무성음성합성부(220)로 인가되며, 여기서 무성음부의 LPC잔차를 도출하는 잡음코드북에 대한 조사가 이루어진다. 이러한 LPC잔차는 또한 LPC합성필터(214)로 보내진다. LPC합성필터(214)에서는, 유성음부의 LPC잔차와 무성음부의 LPC잔차가 LPC합성에 의해 처리된다. 선택적으로, 서로 합해진 유성음부의 LPC잔차와 무성음부의 LPC잔차가 LPC합성으로 처리될 수도 있다. 입력단자(202)로부터의 LPC지수데이터는 LPC파라미터재생부(213)로 인가되어 LPC의 α-파라미터가 도출되어 LPC합성필터(214)로 보내진다. LPC합성필터(214)에 의해 합성된 음성신호는 출력단자(201)에서 도출된다. 이제, 도 3을 참고로 하여, 도 1에 나타낸 음성합성 엔코더의 보다 상세한 구조를 설명한다. 도 3에서, 도 1에 나타낸 구성요소와 동일한 구성요소는 동일한 참조부호로 표시한다.

도 3에 나타낸 음성신호 엔코더에 있어서, 입력단자(101)에 인가되는 음성신호는 고역통과필터(109)에 의해 필터처리되어 불필요한 영역의 신호가 제거된 다음 LPC분석/양자화부(113)의 LPC분석회로(132)와 역LPC필터(111)로 인가된다. LPC분석/양자화부(113)의 LPC분석회로(132)는 1블록으로써 256샘플의 차수로 입력신호파형의 길이를 갖는 해밍 윈도우(Hamming window)를 적용하며, 자기상관방법을 이용하여 소위 α-파라미터의 선형예측계수를 구한다. 데이터출력단위로써의 프레임간격은 대략 160샘플로 설정된다. 샘플링주파수(fs)가 예를들어 8kHz이면, 1프레임간격은 20msec/160샘플이다.

LPC분석회로(132)로부터의 α-파라미터는 α→LSP변환회로(133)로 보내져서 선스펙트럼쌍(LSP) 파라미터로 변환된다. α→LSP변환회로(133)는 다이렉트형 필터계수에 의해 구해진 α-파라미터를 예를들어 10개 즉, 5쌍의 LSP파라미터로 변환한다. 이러한 변환은 예를들어 뉴튼-랩슨(Newton-Rhapson)방법에 의해 수행된다. α-파라미터가 LSP파라미터로 변환되는 이유는 LSP파라미터가 α-파라미터보다 보간특성이 우수하기 때문이다.

α→LSP변환회로(133)로부터의 LSP파라미터는 LSP양자화기(134)에 의해 행렬 또는 벡터양자화된다. 벡터양자화에 앞서 프레임 대 프레임 차를 취할 수도, 또는 행렬양자화를 행하기 위해서 복수의 프레임을 수집할 수도 있다. 본 발명의 경우에 있어서는, 매 20msec마다 계산된 2프레임(20msec)의 LSP파라미터가 수집되어 행렬양자화 및 벡터양자화로 처리된다.

양자화기(134)의 양자화된 출력, 즉 LSP양자화의 지수데이터는 단자(102)에서 도출되는 한편, 양자화된 LSP벡터는 LSP보간처리회로(136)로 보내진다.

LSP보간처리회로(136)는 매 20msec 또는 40msec마다 양자화된 LSP벡터들을 보간처리하여 8-폴드레이트(fold rate)를 제공하게 된다. 즉, LSP벡터는 매 2.5msec마다 업데이트된다. 그 이유는, 만일 잔차파형이 고조파 부호화/복호화방법에 의해 분석/합성처리되면, 합성파형의 포락선이 극도로 누그러진 파형을 나타내므로, LPC계수가 매 20msec마다 갑작스럽게 변화하는 경우에는, 이상잡음이 생성되기 쉽기 때문이다. 즉, LPC계수가 매 2.5msec마다 점차적으로 변하게 되면, 그러한 이상잡음의 발생을 방지할 수 있다.

매 2.5msec마다 생성된 보간처리된 LSP벡터를 사용하는 입력음성의 역필터링을 위해, LSP파라미터는 LSP→α변환회로(137)에 의해 10-차수의 다이렉트형 필터의 계수로써 α-파라미터로 변환된다. LSP→α변환회로(137)의 출력은 LPC역필터회로(111)로 인가되며, 여기서 역필터처리가 수행되어 매 2.5msec마다 업데이트된 α-파라미터를 이용하는 양호한 출력을 생성하게 된다. 역LPC필터(111)의 출력은 고조파부호화회로 등과 같은 정현분석부호화부(114)의 DCT회로 등과 같은 직교변환회로(145)로 보내진다.

LPC분석/양자화부(113)의 LPC분석회로(132)로부터의 α-파라미터는 청각가중필터계산회로(139)로 보내지며, 여기서 청각가중을 위한 데이터가 구해진다. 이러한 가중데이터는 청각가중벡터양자화기(116), 제 2부호화부(120)의 청각가중필터(125) 및 청각가중합성필터(122)로 보내진다.

고조파부호화회로의 정현분석부호화부(114)는 고조파부호화방법을 이용해 역LPC필터(111)의 출력을 분석한다. 즉, 음조검출, 각 고조파의 진폭(Am)의 계산 및 유성음(V)/무성음(UV)판별이 수행되며, 음조에 따라 변환되는 진폭(Am)의 수 또는 각 고조파의 포락선은 치원변환에 의해 일정하게 이루어진다.

도 3에 나타낸 정현분석부호화부(114)의 도시예에서는, 평범한 고조파부호화를 사용하고 있다.

특히, 멀티밴드여기(勵起)(MBE)부호화에 있어서, 유성음부 및 무성음부가 주파수영역 또는 동일시점(동일한 블록이나 프레임)의 대역내에 존재하는 모델이라 가정한다. 다른 고조파부호화기술에 있어서는, 1블록 또는 1프레임내의 음성이 유성음인지 무성음인지를 양호하게 판정한다. 다음의 설명에 있어서, MBE부호화가 관련되는 한, 전체의 대역이 UV이면 주어진 프레임은 UV가 되도록 판정된다.

도 3의 정현분석부호화부(114)의 개루프음조탐색부(141) 및 제로크로싱카운터(142)는 입력단자(101)로부터의 입력음성신호와, 고역통과필터(HPF)(109)로부터의 신호를 각각 인가받는다. 정현분석부호화부(114)의 직교변환회로(145)는 역LPC필터(111)로부터 LPC잔차 또는 선형예측잔차를 인가받는다. 개루프음조탐색부(141)는 입력신호의 LPC잔차에 대해 개루프에 의한 비교적 거친 음조탐색을 수행한다. 추출된 거친 음조데이터는 후술하는 바와같이 폐루프에 의해 정밀음조탐색부(146)로 보내진다. 개루프음조탐색부(141)로부터는, 거친 음조데이터와 함께 LPC잔차의 자기상관최대치를 규격화하여 얻어진 규격화된 자기상관최대치(r(p))가 거친 음조데이터와 함께 도출되어서 V/UV판별부(115)로 보내진다.

직교변환회로(145)는 이산푸리에변환(DFT)등의 직교변환을 수행하여 시간축상의 LPC잔차를 주파수축상의 스펙트럼진폭데이터로 변환한다. 직교변환회로(145)의 출력은 고정밀음조탐색부(146) 및 스펙트럼평가부(148)로 보내져서 스펙트럼진폭 또는 포락선을 평가하게 된다.

고정밀음조탐색부(146)는 개루프음조탐색부(141)에 의해 추출된 비교적 거친 음조데이터와 직교변환부(145)에 의한 DFT로 얻어진 주파수영역데이터를 인가받는다. 고정밀음조탐색부(146)는 거친 음조값데이터에 중심에 있는 ±6∼7개의 샘플에 의한 음조데이터를 0.2∼0.5의 속도로 회전시켜서, 결국 최적의 10진포인트(부동포인트)를 갖는 고정밀음조데이터의 값에 다다르게 한다. 분석/합성방법은 전력스펙트럼이 본래의 음성의 전력스펙트럼에 근접하게 되도록, 음조를 선택하기 위한 고정밀탐색기술로써 사용된다. 폐루프 고정밀음조탐색부(146)로부터의 음조데이터는 스위치(118)를 통해서 출력단자(104)로 보내진다.

스펙트럼 평가부(148)에 있어서, 각 고조파의 진폭 및 그 고조파의 합으로써의 스펙트럼포락선은 스펙트럼진폭 및 LPC잔차의 직교변환출력으로써의 음조를 기초로 하여 평가되어, 고정밀음조탐색부(146), V/UV판별부(115) 및 청각가중벡터양자화부(116)로 보내진다.

V/UV판별부(115)는 직교변환회로(145)의 출력, 고정밀음조탐색부(146)로부터의 최적의 음조, 스펙트럼평가부(148)로부터의 스펙트럼진폭데이터, 개루프 음조탐색부(141)로부터의 규격화된 자기상관최대치(r(p)), 및 제로크로싱카운터(142)의 제로크로싱카운트값을 기초로 하여, 프레임에 대한 V/UV를 판별한다. 또한, MBE용 대역에 기초한 V/UV판별의 경계위치도 V/UV판별에 대한 조건으로 사용될 수 있다. V/UV판별부(115)의 판별출력은 출력단자(105)에서 도출된다.

스펙트럼평가부(148)의 출력부 또는 벡터양자화부(116)의 입력부는 데이터수 변환부(일종의 샘플링속도변환을 수행하는 장치부)를 부설하고 있다. 데이터수변환부는 주파수축상에 분할된 대역수와 데이터수가 음조와 다른점을 고려하여, 포락선의 진폭데이터(Am)를 설정하기 위해 사용되는 것이다. 즉, 유효대역이 3400kHz에 다다르면, 유효대역은 음조에 따라서 8∼63대역으로 분할될 수 있다. 대역에서 대역까지에서 얻어진 진폭데이터(Am)의 mMx + 1의 수는 8∼63의 범위로 변화된다. 따라서, 데이터수 변환부는 변수(mMx + 1)의 진폭데이터를 44데이터 등의 소정수(M)의 데이터로 변환한다.

스펙트럼평가부(148)의 출력부 또는 벡터양자화기(116)의 입력부에 부설된 데이터수 변환부로부터의, 44 등의, 소정수(M)의 진폭데이터 또는 포락선데이터는 가중벡터양자화를 수행함으로써, 벡터양자화기(116)에 의해, 소정수의 데이터가 단위로써, 44데이터 등과 같이 되는 식으로 수집된다. 이러한 가중은 청각가중필터계산회로(139)의 출력에 의해 인가된다. 벡터양자화부(116)로부터의 포락선의 지수는 출력단자(103)에서 스위치(117)에 의해 도출된다. 가중 벡터양자화에 앞서, 소정의 데이터수로 구성된 벡터를 위해 적절한 누설계수를 사용하여 프레임간의 차를 구하는 것이 상책이다.

제 2부호화부(120)를 설명한다. 제 2부호화부(120)는 소위 CELP부호화구조를 가지며 특히 입력음성신호의 무성음부를 CELP부호화하는데 사용된다. 입력음성신호의 무성음부에 대한 CELP부호화구조에 있어서, 잡음코드북 또는 소위 확률적코드북의 대표값출력으로써 무성음의 LPC잔차에 상응하는 잡음출력은 이득제어회로(126)를 통해 가중합성필터(122)로 보내진다. 청각가중합성필터(122)는 입력잡음을 LPC합성하여 생성된 가중 무성음신호를 감산기(123)로 보낸다.감산기(123)에는 고역통과필터(HPF)(109)를 통해서 입력단자(101)로부터 인가되어 청각가중필터(125)에 의해 청각가중된 신호가 인가된다. 그 신호와 합성필터(122)로부터의 신호와의 차 또는 오차가 도출된다. 한편, 청각가중합성필터의 제로입력응답은 청각가중합성필터(125)의 출력에서 사전에 감산된다. 이러한 오차는 거리계산을 위한 거리계산회로(124)로 인가된다. 오차를 최소화하게 될 대표적인 벡터값은 잡음코드북(121)에서 탐색된다. 이상은 분석/합성방법을 사용하는 개루프탐색을 차례로 사용하여 시간영역파형의 벡터양자화에 대한 요약이다.

CELP부호화구조를 이용하는 제 2엔코더(120)로부터의 무성음(UV)부에 대한 데이터로써, 잡음코드북(121)으로부터는 코드북에 대한 형상지수가, 이득회로(126)으로부터는 코드북에 대한 이득지수가 각각 도출된다. 잡음코드북(121)으로부터의 UV데이터인 형상지수와, 이득회로(126)으로부터의 UV데이터인 이득지수는 스위치(127g)를 통해 입력단자(107g)로 보내진다.

이러한 스위치(127s, 127g) 및 스위치(117, 118)는 V/UV판별부(115)로부터의 V/UV판별결과에 따라서 턴온 및 턴오프된다. 특히, 현재 송신되는 프레임의 음성신호에 대한 V/UV판별결과가 유성음(V)을 나타내는 경우에는 스위치(117, 118)가 턴온되는 한편, 현재 송신되는 프레임의 음성신호가 무성음(UV)을 나타내는 경우에는 스위치(127s, 127g)가 턴온된다.

도 4는 도 2에 나타낸 음성신호디코더의 보다 상세한 구조를 나타낸다. 도 4에서는, 도 2에 나타낸 구성소자를 표시하는데 동일한 참조부호를 사용하였다.

도 4에서, 도 1 및 도 3의 출력단자(102)에 상응하는 LSP의 벡터양자화출력, 즉 코드북지수는 입력단자(202)로 인가된다.

LSP지수는 선스펙트럼쌍(LSP)데이터로 역벡터양자화되도록 LPC파라미터생성부(213)용 LSP의 역벡터양자화기(231)로 보내져서, 보간처리를 위해 LSP보간처리회로(232, 233)로 인가된다. 결과의 보간처리된 데이터는 LSP→α변환회로(234, 235)에 의해 α-파라미터로 변환되어서, LPC합성필터(214)로 보내진다. LSP보간처리회로(232)와 LSP→α변환회로(234)는 유성음(V)사운드용으로 설계되는 한편, LSP보간처리회로(233)와 LSP→α변환회로(235)는 무성음(UV)용으로 설계된다. LPC합성필터(214)는 유성음성부의 LPC합성필터(236)를 무성음성부의 LPC합성필터(237)로부터 분리한다. 즉, LPC계수보간처리는 유성음성부와 무성음성부에 대해 독립적으로 수행되어, 완전히 다른 특성의 LSPs에 대한 보간처리에 의해 유성음성부에서 무성음성부로의 혹은 그 반대로의 송신부내에 역효과가 발생하는 것을 방지하게 된다.

도 4의 입력단자(203)로는 도 1 및 도 3의 엔코더의 단자(103)의 출력에 상응하여 가중된 스펙트럼포락선(Am)에 상응하는 코드지수데이터가 인가된다. 입력단자(204)로는 도 1 및 도 3의 단자(104)로부터의 음조데이터가 인가된다. 입력단자(205)로는 도 1 및 도 3의 단자(105)로부터의 V/UV판별데이터가 인가된다.

입력단자(203)로부터의 스펙트럼포락선(Am)의 벡터양자화 지수데이터는 역벡터양자화용의 역벡터양자화기(212)로 인가되며, 여기서 데이터수변환에 대한 역변환이 수행된다. 결과의 스펙트럼포락선데이터는 정현합성회로(215)로 보내진다.

프레임간의 차가 부호화중에 스펙트럼의 벡터양자화에 앞서 구해지게 되면, 프레임간의 차는 스펙트럼포락선데이터를 생성하는 역벡터양자화후에 복호화된다.

정현합성회로(215)로는 입력단자(204)로부터의 음조데이터와 입력단자(205)로부터의 V/UV판별데이터가 인가된다. 정현합성회로(215)로부터는 도 1 및 도 3에 나타낸 LPC역필터의 출력에 상응하는 LPC잔차데이터가 도출되어 가산기(218)로 보내진다.

역벡터양자화기(212)의 포락선데이터와 입력단자(204, 205)로부터의 음조데이터 및 V/UV판별데이터는 유성음부(V)에 대해 잡음가산을 위한 잡음합성회로(216)로 인가된다. 잡음합성회로(216)의 출력은 가중 중첩 및 가산회로(217)를 통해서 가산기(218)로 인가된다. 특히, 유성음의 LPC합성필터에 대한 입력으로써 여기(勵起)가 정현파합성에 의해 생성되는 경우에는, 남성음성등의 저음조의 음에서는 답답한 느낌이 생성되고, 유성음과 무성음간의 음질이 급격히 변환함에 따라서 부자연스런 청감이 생성되는 사실을 고려하여, 잡음을 LPC잔차신호의 유성음성부에 가산한다. 그러한 잡음은 유성음성부의 LPC합성필터입력 즉, 여기(勵起)와 결부되어, 음조, 스펙트럼포락선의 진폭, 프레임의 최대진폭 또는 잔차신호레벨 등의 음성부호화데이터와 관계된 파라미터를 고려하고 있다.

가산기(218)의 가산출력은 LPC합성필터(214)의 유성음용 합성필터(236)에 인가되고, 여기서 LPC합성이 수행되어 시간파형데이터를 이루게 된 다음, 유성음성용 포스트필터(238v)에 의해 필터처리되어 가산기(239)로 보내진다.

도 3의 출력단자(107s, 107g)로부터의 UV데이터로써는, 형상지수와 이득지수가 도 4의 입력단자(207s, 207g)로 인가된 다음, 무성음성합성부(220)로 보내진다. 단자(207s)로부터의 형상지수는 무성음성합성부(220)의 잡음코드북(221)으로 인가되는 한편, 단자(207g)로부터의 이득지수는 이득회로(222)로 인가된다. 잡음코드북(221)에서 독출된 대표값출력은 무성음에 대한 LPC잔차에 상응하는 잡음신호성분이다. 이러한 대표값출력은 이득회로(222)에서 소정의 이득진폭이 되고, 유성음부에 대해 완만한 접속을 위해 윈도우처리되도록 윈도우처리회로(223)로 보내진다.

윈도우처리회로(223)의 출력은 LPC합성필터(214)의 무성음(UV)을 위해 합성필터(237)로 보내진다. 합성필터(237)로 인가된 데이터는 LPC합성처리되어 무성음부에 대한 시간파형데이터가 된다. 무성음부에 대한 시간파형데이터는 가산기(239)에 인가되기 전에 무성음용 포스트필터에 의해 필터처리된다.

가산기(239)에서는, 유성음성용 포스트필터(238v)로부터의 시간파형신호와 무성음성용 포스트필터(238u)로부터의 시간파형신호데이터가 서로 합해지고, 그 결과의 합산데이터는 출력단자(201)로 도출된다.

상술한 음성신호 엔코더는 요구된 음질에 따라서 서로 다른 비트속도의 데이터를 출력할 수 있다. 즉, 출력데이터는 다양한 비트속도로 출력될 수 있다. 예를들어, 저속의 비트속도가 2kbps이고 고속의 비트속도가 6kbps이면, 출력데이터는 도 15에 나타낸 비트속도를 갖는 비트속도데이터이다.

출력단자(104)로부터의 음조데이터는 언제나 8비트/20msec의 비트속도로 유성음성용으로 출력되며, 출력단자(105)로부터의 V/UV판별출력은 언제나1비트/20msec로 출력되게 된다. 출력단자(102)로부터 출력된 LSP양자화용 지수는 32비트/40msec와 48비트/40msec사이로 절환된다. 반면에, 출력단자(103)에 의해 유성음성(V)이 출력되는 동안의 지수는 15비트/20msec와 87비트/20msec사이로 절환된다. 출력단자(107s, 107g)로부터 출력된 무성음(UV)용 지수는 11비트/10msec와 23비트/5msec사이로 절환된다. 유성음성(UV)용 출력데이터는 2kbps에 대해서는 40비트/20msec이고 6kbps에 대해서는 120kbps/20msec이다. 반면에, 유성음성(UV)용 출력데이터는 2kbps에 대해서는 39비트/20msec이고 6kbps에 대해서는 117kbps/20msec이다.

LPS양자화용 지수, 유성음성(V)용 지수 및 무성음성(UV)용 지수를 이하 적합한 부분의 구성과 결부시켜 설명한다.

도 5 및 도 6을 참고로 하여, LSP양자화기(134)에 있어서의 행렬양자화 및 벡터양자화를 상세히 설명한다.

LPC분석회로(132)로부터의 α-파라미터는 LSP파라미터로 변환하기 위한 α→LSP변환회로(133)로 보내진다. P-차수의 LPC분석이 LPC분석회로(132)에서 수행되면, Pα-파라미터가 계산된다. 이러한 Pα-파라미터는 버퍼(610)에 유지되어 있는 LSP파라미터로 변환된다.

버퍼(610)는 2프레임에 대한 LSP파라미터를 출력한다. 이 2프레임에 대한 LSP파라미터는 제 1행렬양자화기(620₁)와 제 2행렬양자화기(620₂)로 이루어진 행렬양자화기(620)에 의해 행렬-양자화된다. 2프레임의 LSP파라미터는 제 1행렬양자화기(620₁)에서 행렬-양자화되며, 결과의 양자화오차도 또한 제 2행렬양자화기(620₂)에서도 행렬-양자화된다. 행렬양자화는 시간축과 주파수축의 양측으로의 상관율을 촉진한다.

행렬양자화기(620₂)로부터의 두개의 프레임에 대한 양자화오차는 제 1벡터양자화기(640₁)와 제 2벡터양자화기(640₂)로 이루어진 벡터양자화부(640)로 입력된다. 제 1벡터양자화기(640₁)는 두개의 벡터양자화부(650, 660)로 이루어진 반면, 제 2벡터양자화기(640₂)는 두개의 벡터양자화부(670, 680)로 이루어져 있다. 행렬양자화부(620)로부터의 양자화오차는 제 1벡터양자화기(640₁)의 벡터양자화부(650, 660)에 기초한 프레임상에서 양자화된다. 그 결과의 양자화오차벡터는 또한 제 2벡터양자화기(640₂)의 벡터양자화부(670, 680)에 의해 벡터양자화된다. 상술한 벡터양자화는 주파수축을 따라 상관율을 촉진한다.

상술한 바와같이 행렬양자화를 수행하는 행렬양자화부(620)는 제 1행렬양자화단계를 수행하기 위한 적어도 하나의 제 1행렬양자화기(620₁)와 제 2행렬양자화단계를 수행하기 위한 적어도 하나의 제 2행렬양자화기(620₂)를 포함하여 제 1행렬양자화에 의해 생성된 양자화오차를 행렬양자화하게 된다. 상술한 바와같이 벡터양자화를 수행하는 벡터양자화부(640)는 제 1벡터양자화단계를 수행하기 위한 적어도 하나의 제 1벡터양자화기(640₁)와 제 2벡터양자화단계를 수행하기 위한 적어도하나의 제 2벡터양자화기(640₂)를 포함하여 제 1벡터양자화에 의해 생성된 양자화오차를 벡터양자화하게 된다.

이하, 행렬양자화 및 벡터양자화를 상세히 설명한다.

버퍼(600)에 저장되어 있는 2개의 프레임에 대한 LSP파라미터, 즉 10×2행렬은 제 1행렬양자화기(620₁)로 보내진다. 제 1행렬양자화기(620₁)는 2개의 프레임에 대한 LSP파라미터를 LSP파라미터 가산기(621)를 통해 가중거리계산부(623)로 인가하여 최소값의 가중거리를 구한다.

제 1행렬양자화기(620₁)에 의한 코드북탐색동안의 왜곡측정(d_MQ1)은 다음 수학식 1로 주어진다.

여기서, X₁는 LSP파라미터이고 X₁'는 양자화값인 한편, t 및 i는 P-차원의 수가 된다.

주파수축 및 시간축으로의 무게제한을 고려하지 않고 있는 무게(W(t, i))는 수학식 2로 주어진다.

여기서 x(t, 0) = 0이고, x(t, p+1)는 t에 관계없이 π이다.

수학식 2의 무게는 또한 하류측 행렬양자화 및 벡터양자화에도 사용된다.

계산된 가중거리는 행렬양자화용 행렬양자화기(MQ₁)(622)로 보내진다. 이 행렬양자화에 의해 출력도니 8-비트의 지수는 신호절환기(690)로 보내진다. 행렬양자화에 의한 양자화값은 2프레임용 LSP파라미터로부터 가산기(621)에서 감산된다. 가중거리계산부(623)는 매 2프레임마다의 가중거리를 연속적으로 계산하므로, 그 결과 행렬양자화가 행렬양자화부(622)에서 수행된다. 또한, 가중거리를 최소화하는 양자화값이 선택된다. 가산가(621)의 출력은 제 2행렬양자화기(620)의 가산기(631)로 보내진다.

제 1행렬양자화기(620₁)와 비슷하게, 제 2행렬양자화기(620₂)는 행렬양자화를 수행한다. 가산기(621)의 출력은 가산기(631)를 통해 가중거리 계산부(633)로 보내지며, 여기서 최소의 가중거리가 계산된다.

제 2행렬양자화기(620₂)에 의한 코드북탐색동안의 왜곡측정(d_MQ2)은 수학식 3에 의해 주어진다.

여기서 X₂및 X₂'는 각각 제 1행렬양자화기(620₁)으로부터의 양자화오차 및 양자화값이다.

가중거리는 행렬양자화를 위해 행렬양자화부(MQ₂)(632)로 보내진다. 행렬양자화에 의해 출력된 8-비트의 지수는 2프레임의 양자화오차로부터 가산기(631)에 의해 감산된다. 가중거리 계산부(633)는 가산기(631)의 출력을 이용하여 가중거리를 계속해서 계산한다. 가중거리를 최소화하는 양자화값이 선택된다. 가산기(631)의 출력은 제 1벡터양자화기(640₁)의 가산기(651, 661)로 한 프레임씩 차례대로 보내진다.

제 1벡터양자화기(640₁)는 한 프레임씩 차례대로 벡터양자화를 수행한다. 가산기(631)의 출력은 한 프레임씩 차례대로 가산기(651, 661)를 통해서 각각의 가중거리 계산부(653, 663)로 보내져서, 최소의 가중거리를 계산하게 된다.

양자화오차(X₂)와 양자화오차(X₂')간의 차는 (10×2)행렬이다. 만일 그 차가 X₂- X₂' = [x _3-1,x _3-2]와 같이 나타나는 경우, 제 1벡터양자화기(640₁)의 벡터양자화부(652, 662)에 의한 코드북탐색동안의 왜곡측정(d_VQ1, d_VQ2)은 수학식 4 및 5에 의해 주어진다.

가중거리는 벡터양자화를 위해 벡터양자화부(VQ₁)(652)와 벡터양자화부(VQ₂)(662)로 보내진다. 이 벡터양자화에 의해 출력된 각 8-비트의 지수는 신호절환기(690)로 보내진다. 양자화값은 2프레임의 입력양자화오차벡터로부터 가산기(651, 661)에 의해 감산된다. 가중거리 계산부(653, 663)는 가산기(651, 661)의 출력을 이용하여, 가중거리를 연속적으로 계산하여, 가중거리를 최소화하는 양자화값을 선택한다. 가산기(651, 661)의 출력은 제 2벡터양자화기(640₂)의 가산기(671, 681)로 보내진다.

rm {{underline x}_4-1 ~=~ x_3-1~ -~ {underlinex}_3-1 '}# rm{{underline x}_4-2 ~=~ x_3-2~ -~ {underlinex}_3-2 '}

에 대한, 제 2벡터양자화기(640₂)의 벡터양자화기(672, 682)에 의한 코드북탐색동안의 왜곡측정(d_VQ3, d_VQ4)은 수학식 6, 7에 의해 주어진다.

이러한 가중거리는 벡터양자화를 위해 벡터양자화기(VQ₃)(672)와 벡터양자화기(VQ₄)(682)로 보내진다. 벡터양자화로부터의 8-비트의 지수데이터는 가산기(671, 681)에 의해 2프레임에 대한 입력 양자화오차벡터로부터 감산된다. 가산거리 계산부(673, 683)는 가산기(671, 681)의 출력을 이용하여 가중거리를 연속해서 계산하여 가중거리를 최소화하는 양자화값을 선택하게 된다.

코드북학습동안에는, 각각의 왜곡측정을 기초로 범용의 로이드알고리듬(Lloyd algorithm)에 의해 수행된다.

코드북탐색동안의 왜곡측정과 학습동안의 왜곡측정은 서로 다른 값이 될 수도 있다.

행렬양자화부(622, 632) 및 벡터양자화부(652, 662, 672 및 682)로부터의 8-비트의 지수데이터는 신호절환기(690)에 의해 절환되어 출력단자(691)에서 출력된다.

특히, 제 1행렬양자화단계를 수행하는 제 1행렬양자화기(620₁)의 출력과, 제 2행렬양자화단계를 수행하는 제 2행렬양자화기(620₂)의 출력과, 제 1벡터양자화단계를 수행하는 제 1벡터양자화기(640₁)의 출력은 저속의 비트속도로 도출되는 한편, 그러한 낮은 비트속도로의 출력은 제 2벡터양자화단계를 수행하는 제 2벡터양자화기(640₂)의 출력에 합해져서, 그 결과의 합은 고속의 비트속도로 도출된다.

상기 결과합은 2kbps 및 6kbps에 대해 각각 32비트/40msec의 지수 및 48비트/40msec의 지수를 출력한다.

행렬양자화부(620)와 벡터양자화부(640)는 LPC계수를 나타내는 파라미터의 특성에 따라 주파수축 및/또는 시간축으로 제한된 가중(weighting)을 수행한다.

LPC파라미터의 특성에 따라 주파수축으로 제한된 가중을 우선 설명한다. 만일 차수 P = 10이면, LSP파라미터(X(i))는 다음과 같이 저, 중, 고영역의 3가지 영역으로 그룹지워진다.

rm{L_1 ~=~｛X(i)~｜1~≤~i~≤~2｝}##rm{L_2~=~｛X(i)~｜3~≤~i~≤~6｝}##rm{L_3 ~=~｛X(i)~｜7~≤~i~≤10｝}

만일, 그룹(L₁, L₂및 L₃)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 가중은 다음의 수학식 8, 9 및 10으로 주어진다.

LSP파라미터의 가중은 각각의 그룹에서만 수행되며, 그러한 무게는 각 그룹에 대한 가중에 의해 제한된다.

시간축방향을 보면, 각각의 프레임의 총합은 반드시 1이므로, 시간축방향으로의 제한은 프레임에 근거한다. 시간축방향으로만 제한되는 무게는 다음의 수학식 11로 주어진다.

여기서 1 ≤ i ≤ 10 이고, 0 ≤ t ≤ 1이다.

이 수학식 11에 의해, 주파수축으로 제한되지 않는 가중이 t = 0 및 t = 1의 프레임수를 갖는 두개의 프레임사이에서 수행된다. 시간축방향으로만 제한되는 이러한 가중은 행렬양자화로 처리된 두개의 프레임사이에서 수행된다.

학습하는 동안의, 총수(T)를 갖는 학습데이터로써 사용되는 총 프레임은 다음 수학식 12에 따라서 가중된다.

여기서 1 ≤ i ≤ 10이고 0 ≤ t ≤ T이다.

주파수축방향 및 시간축방향으로 제한되는 가중을 설명한다. 만일 차수 P = 10이면, LSP파라미터(X(i, t))는 다음과 같이 저, 중, 고영역의 3가지 영역으로 그룹지워진다.

rm{L_1 ~=~｛X(i, ~t)~｜1~≤~i~≤~2,~0~≤~t~≤~1｝}##rm{L_2 ~=~｛X(i, ~t)~｜3~≤~i~≤~6,~0~≤~t~≤~1｝}##rm{L_3 ~=~｛X(i, ~t)~｜7~≤~i~≤10,~0~≤~t~≤~1｝}

만일, 그룹(L₁, L₂및 L₃)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 가중은 다음의 수학식 13, 14 및 15로 주어진다.

이들 수학식 13, 14 및 15에 의해, 매 3프레임마다 주파수축으로 제한되고 행렬양자화로 처리되는 두개의 프레임을 가로지르는 가중이 수행된다. 이는 코드북탐색 및 학습중에 효과적이다.

학습동안의, 가중은 전체데이터의 총프레임용이다. LSP파라미터(X(i, t))는 다음과 같은 저, 중, 고영역으로 그룹지워진다.

rm{L_1 ~=~｛X(i, ~t)~｜1~≤~i~≤~2,~0~≤~t~≤~T｝}##rm{L_2 ~=~｛X(i, ~t)~｜3~≤~i~≤~6,~0~≤~t~≤~T｝}##rm{L_3 ~=~｛X(i, ~t)~｜7~≤~i~≤10,~0~≤~t~≤~T｝}

만일, 그룹(L₁, L₂및 L₃)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 그룹(L₁, L₂및 L₃)의 가중(weighting)은 다음의 수학식 16, 17 및 18로 주어진다.

이들 수학식 16, 17 및 18에 의해, 주파수축으로의 3영역에 대한 가중이 수행될 수 있어, 시간축방향으로의 총 프레임을 가로지르게 된다.

또한, 행렬양자화부(620)와 벡터양자화부(640)는 LSP파라미터에 있어서의 변화도에 따라서 가중을 수행한다. 전체 음성프레임중에서 저위 프레임을 나타내는 V→UV 또는 UV→V로의 과도영역에 있어서, LSP파라미터는 자음과 모음사이의 주파수응답에 있어서의 차이로 인해 확실하게 변한다. 따라서, 수학식 19에 나타낸 가중은 과도영역상에 강세를 위치시키는 가중용 가중(W'(i, t))에 의해 다중화될 수도 있다.

이 수학식(19)대신에 다음의 수학식 20을 사용할 수도 있다.

따라서, LSP양자화부(134)는 2단의 행렬양자화 및 2단의 벡터양자화를 실행하여 출력지수변수의 비트수를 제공하게 된다.

벡터양자화부(116)의 기본 구조를 도 7에 나타낸 한편, 도 7에 나타낸 벡터양자화부(116)에 대한 보다 상세한 구조는 도 8에 나타내었다. 이제, 벡터양자화부(116)에서 스펙트럼포락선(Am)에 대한 가중벡터양자화의 도시적인 구조를 설명한다.

우선, 도 3에 나타낸 음성신호 부호화장치에 있어서, 스펙트럼평가부(148)의출력측 또는 벡터양자화부(116)의 입력측상의 스펙트럼포락선의 일정수의 진폭데이터를 제공하기 위한 데이터수변환의 도시구조를 설명한다.

그러한 데이터수변환에는 여러가지 방법이 고려될 수 있다. 본 실시예에 있어서는, 블록의 최종데이터로부터 블록의 최초데이터까지의 값을 보간처리하는 더미데이터 또는 그외 블록내의 최종데이터 또는 최초데이터를 반복하는 데이터 등의 소정의 데이터를 주파수축상의 유효대역의 1블록의 진폭데이터에 부가하여 N_F에 대한 데이터수를 강화시키며, Os배(8배)수와 동등한 진폭데이터가 예를들어, FIR필터에 의한 제한된 대역폭형의 8폴드오버샘플링 등의 Os폴드에 의해 구해진다. (mMx + 1) ×Os진폭데이터는 2048등의 보다 큰 N_M수로 확장을 위해 선형보간된다. 이 N_M데이터는 상술한 44데이터 등의 소정수(M)의 데이터로의 변환을 위해 서브샘플처리된다.

실제, 최종으로 요구되는 M데이터를 형성하기 위해 필요한 데이터만이 상술한 N_M데이터를 구하지 않은 상태에서 오버샘플링처리 및 선형보간처리에 의해 계산된다.

도 7의 가중벡터양자화를 수행하기 위한 벡터양자화부(116)는 적어도 제 1벡터양자화단계를 수행하기 위한 제 1벡터양자화부(500)와, 제 2벡터양자화단계를 수행하기 위한 제 2벡터양자화부(510)를 포함하여 제 1벡터양자화부(500)에 의한 제 1벡터양자화동안에 생성된 양자화오차벡터를 양자화시키게 된다. 이러한 제 1벡터양자화부(500)를 소위 제 1단 벡터양자화부라 하며, 한편 제 2벡터양자화부(510)를 소위 제 2단 벡터양자화부라 한다.

스펙트럼 평가부(148)의 출력벡터(x), 즉 소정수(M)를 갖는 포락선데이터는 제 1벡터양자화부(500)의 입력단자(501)로 입력된다. 이 출력벡터(x)는 벡터양자화부(502)에 의해 가중 벡터양자화로 양자화된다. 따라서 벡터양자화부(502)에 의해 출력된 형상지수는 출력단자(504)로 출력되어 가산기(505, 513)로 보내진다. 가산기(505)는 소스벡터(x)에서 양자화값(x ₀')을 감산하여 다차수의 양자화오차벡터(y)를 산출한다.

양자화오차벡터(y)는 제 2벡터양자화부(510)내의 벡터양자화부(511)로 보내진다. 이 제 2벡터양자화부(511)는 복수의 벡터양자화부 또는 도 7에 나타낸 두개의 벡터양자화기(511₁, 511₂)로 이루어진다. 양자화오차벡터(y)는 두개의 벡터양자화기(511₁, 511₂)에서 가중벡터양자화에 의해 양자화되도록 차원적으로 분할된다. 이러한 벡터양자화기(511₁, 511₂)에 의해 출력된 형상지수는 출력단자(512₁, 512₂)에서 출력되는 한편, 양자화값(y ₁',y ₂')은 차원적인 방향으로 접속되어 가산기(513)로 보내진다. 가산기(513)는 양자화값(y ₁',y ₂')을 양자화값(x ₀')에 더하여 양자화값(x ₁')을 생성하여 출력단자(514)로 출력한다.

따라서, 제 1벡터양자화부(500)에 의한 제 1벡터양자화단계의 출력은 저속의 비트속도로 도출되는 반면, 제 1벡터양자화단계 및 제 2양자화부(510)에 의한 제 2양자화단계의 출력은 고속의 비트속도로 출력된다.

특히, 벡터양자화부(116)내의 제 1벡터양자화부(500)내에 있는 벡터양자화기(502)는 도 8에 나타낸 바와같이 44차수의 2단구조등의 L차수의 것이다.

즉, 이득(g_i)으로 다중화된 32의 코드북사이즈를 갖는 44차수의 스펙트럼 포락선 코드북의 출력벡터는 44차수의 스펙트럼 포락선벡터(x)의 양자화값(x ₀')으로 사용된다. 따라서, 도 8에 나타낸 바와같이, 두개의 코드북은 CB0, CB1인 한편, 출력벡터는s _1i,s _1j(여기서 0 ≤ i이고 j ≤ 31)이다. 한편, 이득코드북(CB_g)의 출력은 g₁(여기서, 0 ≤ 1 ≤ 31이고, g₁는 척도이다)이다. 최종의 출력(x ₀')은 g₁(s _1i+s _1j)이다.

상기 LPC잔차의 MBE분석에 의해 얻어져서 소정의 차수로 변환되는 스펙트럼포락선은x이다. 이것이x가 효과적으로 양자화되도록 하는 최종의 방법이다.

양자화오차에너지(E)는 다음 수학식 21로 정의된다.

여기서, H는 LPC합성필터의 주파수축상의 특성을 나타내고, W는 주파수축상에 청각가중을 위한 특성을 나타내는 가중용 행렬이다.

현재프레임의 LPC분석의 결과에 의한 α-파라미터가 α_i(1 ≤ i ≤ P)로 표시되면, L차수의 값, 예를들어 44차수에 상응하는 포인트가 수학식 22의 주파수응답에서 샘플링된다.

계산을 위해, 0s을 1, α₁, α₂, α_p의 열옆에 채워서 1, α₁, α₂, α_p, 0, 0, , 0의 열을 구하여, 예를들어, 256포인트 데이터를 얻는다. 그런다음, 256포인트 FFT에 의해, (r_e ²+ im²)^1/2를 0∼π까지의 범위와 연합된 포인트에 대해 계산하여, 그 결과의 역을 구한다. 이러한 역을 44포인트 등의 L포인트에서 서브샘플처리하여, 다각원소로써 이러한 L포인트를 갖는 행렬을 형성한다.

청각가중행렬(W)는 수학식 23으로 주어진다.

여기서, α_i는 LPC분석의 결과이며, λa, λb는 상수로써 λa = 0.4이고 λb = 0.9이다.

행렬(W)는 상기 수학식 23의 주파수응답으로부터 계산될 수도 있다. 예를들어, FFT를 1, α1λb, α2λb², αpλb^p, 0, 0, , 0의 256포인트 데이터로 수행하여 0에서 π까지의 영역에 대해 (r_e ²[i] + Im²[i])^1/2(여기서 0 ≤ i ≤ 128)를 얻는다.

수학식 23의 주파수응답은 다음식에 의해 얻어질 수도 있다.

여기서, 0 ≤ i ≤ 128이다. 이것은 예를들어, 44차수의 벡터의 연합포인트마다다음 방법으로 구해진다. 보다 명확히 말하면, 선형보간처리가 사용될 수 있다. 그렇지만, 다음예에 있어서는, 가장 근접한 포인트를 대신 사용한다.

즉,

ω[i] = ω0[nint{128i/L}], 여기서 1 ≤ i ≤ L이다.

수학식 nint(X)는 값을 X로 근접시키는 함수이다.

H, h(1), h(2), h(L)에 대해서도 동일한 방법을 이용해 구한다.

즉,

또다른 예로써, H(z)W(z)를 우선 구한 다음 주파수응답을 구하여 FFT의 회수를 감소시킨다.

즉, 수학식 25의 분모는

로 확장된다. 예를들어, 256포인트 데이터를 1, β₁, β₂, , β_2P, 0, 0, , 0의 열을 사용하여 생성한다. 그런다음, 256포인트 FFT를 진폭의 주파수응답이

이 되는 상태로 수행한다. 여기서, 0 ≤ i ≤ 128이다. 이로부터,

여기서 0 ≤ i ≤ 128이다. 이것은 L차원벡터의 각각의 상응하는 포인트에 대해 구해진다. 만일 FFT의 포인트의 수가 작은 경우에는, 선형보간처리가 사용될 수 있다. 그렇지만 최대근사치는 여기서,

에 의해 구해지며, 여기서 1 ≤ i ≤ L이다. 이러한 대각원소를 갖는 행렬은 W'이다.

수학식 26은 수학식 24와 동일한 행렬을 나타내고 있다.

선택적으로, ｜H(exp(jω))W(exp(jω))｜는 wh[i]로 사용되기 위해 ω = i/Lλ에 대해 수학식 25에서 직접 구해진다. 또한 선택적으로, 수학식 25의 임펄스응답은 64와 같은 적정한 길이로 구해져서 FFT되어 wh[i]로 사용될 진폭주파수특성을 구하게 된다.

이러한 행렬 즉, 가중합성필터의 주파수응답을 이용하여 수학식 21을 다시 쓰면, 우리는 수학식 27을 얻는다.

형상코드북과 이득코드북을 학습하는 방법을 설명한다.

왜곡에 대한 기대치는 코드벡터(s0_c)가 CB0를 위해 선택되는 모든 프레임(k)에 대해 최소화된다. 만일 그러한 M프레임이 존재하는 경우에는, 수학식 28이 최소화되면 충분하다.

수학식 28에서, W_k',X _k, g_k및s _ik는 각각 k'번째 프레임에 대한 가중, k'번째 프레임으로의 입력, k'번째 프레임의 이득 및 k'번째 프레임에 대한 코드북(CB1)의 출력을 나타낸다.

수학식 28을 최소화해보면,

그러므로,

그 결과,

여기서 ()는 역행렬을 나타내고 W_K'^T는 W_K'의 이항행렬을 나타낸다.

이어서, 이득최적화를 고려한다.

이득의 코드워드 gc를 선택하는 k'번째 프레임에 관한 왜곡의 기대치는 수학식 32로 주어진다.

풀이하면

우리는

와

다음 수학식 32를 얻는다.

상기 수학식 31과 수학식 32는 형상(s _0i,s _1i), 및 최적의 디코더출력인 0 ≤ i ≤ 31 에 대한 이득(gi)에 대한 최적의 중심조건을 제공한다. 한편,s _0i도s _1i와 동일한 방법으로 구해질 수 있다.

최적의 부호화조건 즉, 가장 근접하는 조건을 고려한다.

상기 왜곡측정, 즉 식 E = ∥W'(X-gc(s _1i+s _1j))∥²를 최소화하는 s01과s _1i을 구하기 위한 수학식 27은 입력(x)와 가중행렬(W')이 주어질 때마다 즉, 한 프레임씩 차례로 구해진다.

본래, E는 gl(0 ≤ 1 ≤ 31),s _0i(0 ≤ i ≤ 31) 및s _1j(0 ≤ i ≤ 31)의 총합 즉, 32×32×32 = 32768에 대해 사발통문(round robin)식으로 구해져서, E의 최소치를 제공할s _0i,s _1i의 세트를 구하게 된다. 그렇지만, 이는 방대한 계산이 요구되기 때문에, 본 실시예에 있어서는 형상과 이득이 연속해서 탐색된다. 한편, s01,s _1i의 조합에 대해서 사발통문식의 탐색이 사용된다. s01,s _1i에 있어서는32×32 = 1024의 조합이 있다. 다음 설명에서,s _1i+s _1j는 간결성을 위해s _m으로 나타낸다.

상기 수학식 27은 E = ∥W'(x-glam)∥²이 된다. 보다 간략하게 한다면, xk =W's이고s _w= W' s_m일 때, 우리는 다음 수학식 33과 34를 얻는다.

따라서, gl을 충분히 정확하게 할 수 있으면, 탐색은 다음의 두가지 단계로 수행될 수 있다.

(1)

를 최소화하게 될s _w에 대한 탐색단계

(2)

에 근접하는g ₁에 대한 탐색단계

상기 내용을 본래의 표기법을 이용해 다시 쓰면,

(1)'

을 최소화할 s01 및s _1i의 세트에 대한 탐색과,

(2)'

에 가장 근접하는 g₁에 대한 탐색이 이루어진다.

상기 수학식 35는 최적의 부호화조건(가장근접한 조건)을 나타낸다.

수학식 31과 수학식 32의 조건(중심조건) 및 수학식 35의 조건을 이용하여, 코드북(CB0, CB1 및 CBg)을 소위 범용화된 로이드 알고리듬(GLA)으로 동시에 연습한다.

본 실시예에 있어서, 입력x의 노르마(norm)에 의해 나누어진 W'는 W'로써 사용된다. 즉, W'/∥x∥는 수학식 31, 32 및 35에서 W'로 치환된다.

선택적으로, 벡터양자화기(116)에 의해 벡터양자화의 시간에 청각가중용으로 사용된 가중(W')은 상기 수학식 26에 의해 정의된다. 그렇지만, 일시적인 마스킹(masking)을 고려하는 가중(W')도 현재 가중(W')(여기서 지난 W'는 이미 고려되어 있다)을 구함으로써 구해질 수 있다.

시간(n)에서, 즉 n번째 프레임에서 구해진 상기 수학식 26에서 wh(1), wh(2), , wh(L)의 값은 각각 whn(1), whn(2), , whn(L)로 표시된다.

과거값을 고려하는 시간(n)에서의 무게를 An(i)로 정의하면, 1 ≤ i ≤ L일때,

{RM An(i) ~= ~λ_n-1 A(i)~+~(1-λ)~whn(i), ~(whn(i)~≤~A_n-1 (i))}##{RM =~whn(i), ~(whn(i)~〉~A_n-1 ~(i))}~~~~~~~~~~~~~~~~~~~~

여기서, λ는 예를들어 λ = 0.2로 설정될 수 있다. An(i)에서는, 1 ≤ i ≤ L로, 그렇게 구해진, 대각원소로써 그러한 An(i)를 갖는 행렬이 상기 가중으로써 사용될 수 있다.

이와같은 식으로 가중벡터양자화에 의해 얻어진 형상지수값(s _0i,s _1i)은 출력단자(520, 522)로 각각 출력되는 한편, 이득지수(gl)은 출력단자(521)로 출력된다. 또한, 양자화값(x ₀')은 출력단자(504)로 출력되는 동시에 가산기(505)로 보내진다.

가산기(505)는 스펙트럼포락선(x)에서 양자화값을 감산하여 양자화오차벡터(y)를 생성한다. 특히, 이러한 양자화오차벡터(y)는 벡터양자화부(511)로 보내져서 차원적으로 분할되게 되어 가중벡터양자화로 벡터양자화기(511₁∼511₈)에 의해 양자화된다.

제 2벡터양자화부(510)는 제 1벡터양자화부(500)보다 큰수의 비트수를 사용한다. 결과적으로, 코드북의 메모리용량 및 코드북탐색에 대한 처리볼륨(복잡성)도 굉장히 증가된다. 따라서, 제 1벡터양자화부(500)의 차수와 동일한 44차수를 갖는 벡터양자화를 수행할 수 있게 된다. 따라서, 제 2벡터양자화부(510)내의 벡터양자화부(511)는 복수의 벡터양자화기들로 이루어지며, 그 입력양자화값은 복수의 저차원의 벡터들로 분할되어 가중벡터양자화를 수행하게 된다.

벡터양자화기(511₁∼511₈)에서 사용된 양자화값(y ₀∼y ₇), 차원수 및 비트수들간의 관계를 다음의 표 1에 나타내었다.

양 자 화 값	차 원 수	비 트 수
y ₀	4	10
y ₁	4	10
y ₂	4	10
y ₃	4	10
y ₄	4	9
y ₅	8	8
y ₆	8	8
y ₇	8	7

벡터양자화기(511₁∼511₈)에서 출력된 지수값(Id_vq0∼Id_vq7)은 출력단자(523₁∼523₈)에서 출력된다. 이러한 지수데이터의 비트합은 72이다.

차원방향으로의 벡터양자화기(511₁∼511₈)의 출력가중값(y ₀',y ₇')을 접속함으로써 얻어진 값이y'이면, 양자화값(y', x0')은 가산기(513)에 의해 합산되어 양자화값(x ₁')을 제공한다. 따라서, 양자화값(x ₁')은 다음과 같이 표시된다.

{rm {underline x}_1 ' = {underline x} _0 '~ +~{underline y}'}##{rm = {underline x} - {underline y} + {underline y}'}

즉, 최종적인 양자화오차벡터는y' -y'이다.

제 2벡터양자화기(510)으로부터 양자화값(x ₁')이 복호화되게 되면, 음성신호복호화장치는 제 1양자화부(500)으로부터 양자화값(x ₁')에 있어 필요치 않다. 그렇지만, 제 1양자화부(500) 및 제 2양자화부(510)으로부터의 지수데이터에 있어서는 필요하다.

벡터양자화부(511)에서의 학습방법 및 코드북탐색을 이하 설명한다.

학습방법에 대해서, 양자화오차벡터(y)는 표 1에 나타낸 바와같이, 무게(W')를 사용하여, 8개의 저차수벡터(y ₀,y ₇)로 분할된다. 무게(W')가 다음의 수학식 36과 같이 대각원소로써 44포인트의 서브샘플처리된 값을 갖는 행렬인 경우,

무게(W')는 다음의 8개의 행렬로 분할된다.

그렇게 저차원들로 분할된y와 W'를 Y _i 와_WI'(여기서 1 ≤ i ≤ 8)로 각각 명명된다.

왜곡측정(E)은 다음 수학식 37로 정의된다.

코드북벡터(s)는y _i에 대한 양자화결과이다. 왜곡측정(E)을 최소화하는 그러한 코드북의 코드벡터가 탐색된다.

코드북학습에 있어서는, 또한 범용의 로이드 알고리듬(GLA)을 이용해 가중이행해진다. 학습에 대한 최적의 중심조건을 먼저 설명한다. 최적의 양자화결과로서 코드벡터(s)를 선택하고 있는 M입력벡터(y)가 존재하고, 연습데이터가 (y _k)인 경우, 왜곡의 기대치(J)는 전체 프레임(k)에 대해 가중을 행하여 왜곡의 중심을 최소화하는 다음의 수학식 38에 의해 주어진다.

풀이하면, 우리는

을 얻는다. 양측의 이항값을 취하여, 우리는

을 얻는다. 따라서, 수학식 39와 같이 된다.

상기 수학식 39에서,s는 최적의 대표벡터이며, 최적의 중심조건을 나타낸다.

최적의 부호화조건에 대해서는, 이것은 ∥_WI'(y _i-s)∥²의 값을 최소화하는s를 탐색하기에 충분하다. 탐색동안의_WI'는 학습동안의_WI'와 똑같을 필요는 없으며, 비가중행렬이 될 수도 있다.

2단의 벡터양자화부를 이용해 음성신호 엔코더내에 벡터양자화부(116)을 구성함으로써, 다양한 출력지수비트의 수를 표현할 수 있게 된다.

본 발명의 상술한 CELP엔코더구조를 이용하는 제 2부호화부(120)은 도 9에 나타낸 바와같이 다단의 벡터양자화 프로세서로 구성되어 있다. 도 9의 실시예에 있어서, 이러한 다단의 벡터양자화 프로세서는 2단의 부호화부(120₁, 120₂)로 구성되며, 여기서 송신비트속도가 예를들어 2kbps와 6kbps와의 사이로 절환될 수 있는 경우에서 6kbps의 송신비트속도를 수습하기 위한 구조를 나타내고 있다. 또한, 형상 및 이득지수출력은 23비트/5msec 및 15비트/ 5msec사이로 절환될 수 있다. 도 9의 구조에 있어서의 처리흐름을 도 10에 나타내었다.

도 9를 참고하면, 도 9의 LPC분석회로(302)는 도 3에 나타낸 LPC분석회로(132)에 상응하는 한편, LSP파라미터 양자화회로(303)는 도 3의 α→LSP변환회로(133)에서 LSP→α변환회로(137)까지의 구성에 대응하며, 청각가중필터(304)는 도 3의 청각가중필터계산회로(139)와 청각가중필터(125)에 상응한다. 따라서, 도 9에 있어서, 도 3의 제 1부호화부(113)의 LSP→α변환회로(137)의 출력과 동일한 출력이 단자(305)로 인가되는 한편, 도 3의 청각가중필터계산회로(139)의 출력과 동일한 출력이 단자(307)로 인가되며, 도 3의 청각가중필터(125)의 출력과 동일한 출력이 단자(306)로 인가된다. 그렇지만, 청각가중필터(125)로부터의 판별에 있어서, 도 9의 청각가중필터(304)는 LSP→α변환회로(137)의 출력을 이용하는 대신에, 입력음성데이터와 예양자화 α-파라미터를 이용하여, 청각가중신호 즉, 도 3의 청각가중필터(125)의 출력과 동일한 신호를 생성한다.

도 9에 나타낸 2단의 제 2부호화부(120₁, 120₂)에 있어서, 감산기(313, 323)는 도 3의 감산기(123)와 대응하는 한편, 거리계산회로(314, 324)는 도 3의 거리계산회로(124)와 대응한다. 또한, 이득회로(311, 321)는 도 3의 이득회로(126)에 대응하는 한편, 확률적 코드북(310, 320) 및 이득 코드북(315, 325)은 도 3의 잡음코드북(121)에 대응한다.

도 9의 구성에 있어서, 도 10의 단계(S1)에서 LPC분석회로(302)는 단자(301)로부터 인가된 입력음성데이터(x)를 상술한 바와같이 프레임으로 분할하여 α-파라미터를 구하기 위해 LPC분석을 수행하게 된다. LSP파라미터 양자화회로(303)는 LPC분석회로(302)로부터의 α-파라미터를 LSP파라미터롤 변환하여 LSP파라미터를 양자화시킨다. 양자화된 LSP파라미터는 보간처리되어서 α-파라미터로 변환된다. LSP파라미터 양자화회로(303)는 양자화된 LSP파라미터에서 변환된 α-파라미터 즉, 양자화된 LSP파라미터에서 LPC분석필터함수(1/H(Z))를 생성하며, 생성된 LPC분석필터함수(1/H(Z))를 단자(305)를 통해서 제 1단의 제 2부호화부(120₁)의 청각가중합성필터(312)로 보낸다.

청각가중필터(304)는 도 3의 청각가중필터 계산회로(139)에 의해 생성된 데이터와 동일한 청각가중용 데이터를 LPC분석회로(302)로부터의 α-파라미터 즉, 예양자화 α-파라미터에서 구한다. 이러한 데이터는 단자(307)를 통해서 제 1단의 제 2부호화부(120₁)의 청각가중합성필터(312)로 인가된다. 청각가중필터(304)는 도 3의 청각가중필터(125)에 의해 출력된 신호와 동일한 신호인 청각가중신호를, 도 10의 단계(S2)에 나타낸 바와같이, 입력음성데이터와 예양자화 α-파라미터로부터 생성한다. 즉, 우선 LPC합성필터함수(W(Z))를 예양자화 α-파라미터로부터 생성한다. 그렇게 생성된 필터함수(W(Z))를 입력음성데이터(x)에 가해서, 청각가중신호로써 단자(306)를 통해서 제 1단의 제 2부호화부(120)의 감산기(303)에 인가되는 Xk를 생성한다.

제 1단의 제 2부호화부(120₁)에 있어서, 9비트의 형상지수출력의 확률적 코드북(310)의 대표값출력은 이득회로(311)로 보내지며, 그후 확률적 코드북(310)으로부터의 대표값출력을 6비트의 이득지수출력의 이득 코드북(315)으로부터의 이득(척도)와 승산한다. 이득회로(311)에 의한 이득과 승산된 대표값출력은 1/A(Z) = (1/H(Z))*W(Z)를 갖는 청각가중합성필터(312)로 보내진다. 도 10에 단계(S3)로 나타낸 바와같이, 가중합성필터(312)는 1/A(Z)의 제로입력응답출력을 감산기(313)로 보낸다. 감산기(313)는 청각가중합성필터(312)의 제로입력응답출력과 청각가중필터(304)로부터의 청가가중신호(Xk)에 대해 감산을 행하며, 그 결과의 차 또는 오차는 기준벡터(r)로써 도출된다. 제 1단의 제 2부호화부(120)에서의 탐색동안에는, 도 10에 나타낸 단계(S4)에 나타낸 바와같이, 기준벡터(r)가 거리계산회로(314)로 보내지며, 여기서 거리가 계산되고 양자화오차에너지(E)를 최소화하는 형상벡터(s) 및 이득(g)이 탐색된다. 여기서, 1/A(Z)는 제로상태에 있게 된다. 즉, 제로상태의 1/A(Z)로 합성된 코드북내의 형상벡터(s)가s _syn인 경우에는, 다음의 수학식 40을 최소화하는 형상벡터(s) 및 이득(g)이 탐색된다.

비록 양자화오차에너지(E)를 최소화하는s및 g가 완전히 탐색될 수도 있지만, 계산량을 감소시키기 위해 다음의 방법을 사용할 수도 있다.

제 1방법은 E를 최소화하는 형상벡터(s)를 탐색하는 방법으로, 다음의 수학식 41에 정의되어 있다.

제 1방법에 의해 얻어진s로부터의, 이상적인 이득은 수학식 42에 나타낸 바와같다.

따라서, 제 2방법으로써는, 다음 수학식 43을 최소화하는 g가 탐색된다.

Eg = (g_ref- g)²

E는 g의 2차함수이기 때문에, Eg를 최소화하는 g는 E를 최소화한다.

제 1 및 제 2방법에 의해 얻어진s및 g로부터, 양자화오차벡터(e)는 다음 수학식 44에 의해 계산될 수 있다.

e=r- gs _syn

이것은 제 1단에서 제 2단의 제 2부호화부(120₂)의 기준만큼 양자화된다.

즉, 단자(305, 307)로 인가된 신호는 제 1단의 제 2부호화부(120₁)의 청각가중합성필터(312)로부터 제 2단의 제 2부호화부(120₂)의 청각가중합성필터(322)로 곧바로 인가된다. 제 1단의 제 2부호화부(120₁)에 의해 구해진 양자화오차벡터(e)는 제 2단의 제 2부호화부(120₂)의 감산기(323)로 인가된다.

도 10의 단계(S5)에서, 제 1단에서 수행된 처리와 동일한 처리가 제 2단의 제 2부호화부(120₂)에서 발생한다. 즉, 5비트의 형상지수출력의 확률적 코드북(320)으로부터의 대표값출력은 이득회로(321)로 보내지며, 여기서 코드북(320)의 대표값출력이 3비트의 이득지수출력의 이득코드북(325)으로부터의 이득과 승산된다. 가중합성필터(322)의 출력은 감산기(323)로 보내지고, 여기서 청각가중합성필터(322)의 출력과 제 1단의 양자화오차벡터(e)간의 차가 구해진다. 이러한 차는 거리계산을 위한 거리계산회로(324)로 보내져서 양자화오차벡터(E)를 최소화하는 형상벡터(s) 및 이득(g)을 탐색하게 된다.

제 1단의 제 2부호화부(120₁)의 확률적 코드북(310)의 형상지수출력과 이득코드북(315)의 이득지수출력과, 제 2단의 제 2부호화부(120₂)의 확률적 코드북(320)의 지수출력과 이득코드북(325)의 지수출력은 지수출력절환회로(330)로 보내진다. 제 2의 부호화부(120)로부터 23비트가 출력되면, 제 1단 및 제 2단의 제 2부호화부(120₁, 120₂)의 확률적 코드북(310, 320)과 이득코드북(315, 325)의 지수데이터가 합해져서 출력된다. 15비트가 출력되면, 제 1단의 제 2부호화부(120₁)의 확률적 코드북(310)과 이득코드북(315)의 지수데이터가 출력된다.

이어서, 단계(S6)에 나타낸 바와같이, 제로입력응답출력을 계산하기 위해서 필터상태를 업데이트한다.

본 실시예에 있어서, 제 2단의 제 2부호화부(120₂)의 지수비트수는 형상벡터에 대해서는 5만큼 작은 한편, 이득에 대해서는 3만큼 작다. 이 경우, 코드북에 적절한 형상과 이득이 존재하지 않으면, 양자화오차가 감소되는 대신 증가될 우려가 있다.

그러한 결점을 방지하기 위해 비록 0을 이득으로 부여할 수도 있지만, 이득용으로는 3개의 비트만이 있다. 그중 하나가 0으로 설정되면, 양자화성능을 굉장히 악화시킨다. 이러한 것을 고려하여, 보다 큰 비트수가 할당되어 있는 형상벡터용으로 모두 0인 벡터를 부여하고 있다. 상술한 탐색은 모든 제로벡터를 베제하고 수행되며, 모든 제로벡터는 양자화오차가 최종으로 증가되어 있는 경우에 선택된다. 이득은 제멋대로이다. 이것은 제 2단의 제 2부호화부(120₂)에서 양자화오차가 증가되는 것을 방지하는 것을 가능하게 해준다.

비록 2단의 구조가 상술되었지만, 그러한 단수는 2보다 클 수도 있다. 그러한 경우, 제 1단의 폐루프탐색에 의한 벡터양자화가 가까워지게 되면, N번째 단(여기서 2≤N)의 양자화는 기준입력으로써 (N-1)번째의 단의 양자화오차로 수행되게 되며, N번째 단의 양자화오차는 (N+1)번째 단에 대한 기준입력으로써 사용된다.

도 9와 도 10으로부터는 제 2부호화부에 대해 다단의 벡터양자화를 적용함으로써, 그 계산량을 동일수의 비트수를 갖는 직벡터양자화의 사용 또는 켤레코드북의 사용에 있어서의 계산량과 비교하여 보다 감소할 수 있다. 특히, 분석/합성방법에 의한 폐루프탐색을 이용하여 시간축파형의 벡터양자화를 행하는 CELF부호화에 있어서, 보다 적은 탐색동작회수는 굉장히 중요하다. 또한, 그러한 비트수는 2단의 제 2부호화부(120₁, 120₂)의 지수출력을 모두 이용하는 것과 제 2단의 제 2부호화부(120₂)의 출력은 이용하지 않고 제 1의 제 2부호화부(120₁)의 출력만을 이용하는 것과를 절환함으로써 손쉽게 절환할 수 있다. 제 1단 및 제 2단의 제 2부호화부(120₁, 120₂)의 지수출력이 합쳐져서 출력되는 경우에는, 디코더는 그러한 지수출력중 하나를 선택함으로써 그러한 구조를 손쉽게 수습할 수 있다. 즉, 2kbps에서 동작하는 디코더를 이용하여 예를들어 6kbps로 부호화된 파라미터를 복호화함으로써 디코더의 구조를 손쉽게 수습할 수 있다. 또한, 제로벡터가 제 2단의 제 2부호화부(120₂)의 형상코드북에 포함되는 경우에는, 양자화오차가 0이 이득에 가해지는 경우보다 그 성능이 보다 덜한 악화로 증가되는 것을 방지할 수 있게 된다.

예를들어, 확률적 코드북의 코드벡터는 소위 가우스잡음을 클립핑(clipping)함으로써 생성될 수 있다. 특히, 코드북은 가우스잡음을 생성하고, 적당한 임계값으로 가우스잡음을 클립핑하고, 클립된 가우스잡음을 규격화함으로써, 생성될 수 있다.

그렇지만, 음성에는 다양한 형태가 있다. 예를들어, 가우스잡음은 "사, 시, 수, 세, 소"등의 잡음에 가까운 자음사운드의 음성은 수습할 수 있는 한편, 그러한 가우스잡음은 "파, 피, 푸, 페, 포"등의 급격히 상승하는 자음에 대한 음성은 수습할 수 없다. 본 발명에 따르면, 가우스잡음이 몇몇의 코드벡터에 가해지게 되는 한편, 코드벡터의 잉여부분은 학습에 의해 처리된다. 그 결과, 급격히 상승하는 자음사운드와 잡음에 가까운 자음사운드를 갖는 모든 자음을 수습할 수 있다. 예를들어, 임계값이 존재하게 되면, 몇몇 큰 피크를 갖는 벡터가 얻어지는 반면, 임계값이 감소되면, 코드벡터는 가우스잡음에 근접하게 된다. 따라서, 임계값을 클립핑하는 데 있어서의 변동을 증가시킴으로써, "파, 피, 푸, 페, 포"등의 급격한 상승부를 갖는 잡음 또는 "사, 시, 수, 세, 소"등의 잡음에 가까운 자음을 수습할 수 있게 됨으로써, 명확성을 증가시키게 된다. 도 11은 가우스잡음의 및 클립핑된 잡음의 외형을 각각 굵은 선 및 점선으로 나타내고 있다. 도 11a 도 11b는 1.0과 동등한 클립핑 임계값 즉, 보다 큰 임계값을 갖는 잡음과, 0.4와 동등한 클립핑 임계값 즉, 보다 작은 임계값을 갖는 잡음을 나타내고 있다. 도 11a 및 도 11b로부터는 임계값이 크게 선택될 경우에는 몇몇 큰 피크를 갖는 벡터가 얻어지는 한편, 임계값이 작은 값으로 선택되는 경우에는 잡음은 스스로 가우스잡음에 접근한다.

이를 실현하기 위해서, 초기의 코드북은 가우스잡음을 클립핑함으로써 준비되며, 적당한 수의 비학습코드벡터가 설정된다. 비학습코드벡터는 "사, 시, 수, 세, 소"등의 잡음에 가까운 자음을 수습하기 위해 증가하는 증가변동값의 차수로 선택된다. 학습에 의해 구해진 벡터는 학습용 LBG알고리듬을 사용한다. 가장 근접한 이웃조건에서 부호화는 고정된 코드벡터와 학습으로 얻어진 코드벡터를 모두 사용한다. 중심조건에서는, 학습용으로 설정된 코드벡터만이 업데이트된다. 따라서, 학습용으로 설정된 코드벡터는 "파, 피, 푸, 페, 포"등의 급격히 상승하는 자음들을 수습할 수 있다.

최적의 이득은 통상의 학습에 의해 이러한 코드벡터에 대해 학습될 수 있다.

도 12는 가우스잡음을 클립핑하여 코드북을 구성하기 위한 처리흐름을 나타낸다.

도 12에 있어서, 학습의 회수(n)는 초기화를 위한 단계(S10)에서는 n = 0으로 설정한다. 오차(D₀) = ∞임에 따라, 학습의 최대회수(n_max)가 설정되며, 학습종료조건을 설정하는 임계값(∈)이 설정된다.

다음단계(S11)에서는, 가우스잡음을 클립핑하여 초기의 코드북을 생성한다. 단계(S12)에서는 코드벡터의 일부를 비학습코드벡터로 고정한다. 단계(S13)에서는, 상기 코드북을 읊조려서 부호화를 행한다. 단계(S14)에서는, 오차를 계산한다. 단계(S15)에서는, D_n-1- D_n/ D_n＜∈, 혹은 n = n_max인지를 판별한다. 그 결과가 "예"이면, 처리를 종료한다. 그 결과가 "아니오"이면, 처리를 단계(S16)로 전환한다.

단계(S16)에서는, 부호화에 사용되지 않은 코드벡터를 처리한다. 다음 단계(S17)에서는, 코드북을 업데이트한다. 단계(S18)에서는, 학습의 회수를 단계(S13)로 되돌리기 전에 증분시킨다.

상술한 신호부호화 및 신호복호화장치를 예를들어 도 14에 나타낸 휴대용 통신단말기나 휴대용 전화기에 채용되는 음성코드북으로써 사용할 수도 있다.

도 13은 도 1 및 도 3에 나타낸 바와 같이 구성된 음성부호화부(160)을 적용하고 있는 휴대용 단말기의 송신측을 나타낸다. 마이크(161)에서 수집된 음성신호는 증폭기(162)에 의해 증폭되어 아날로그/디지털(A/D)변환기(163)에 의해 디지털신호롤 변환되어서, 도 1 및 도 3에 나타낸 바와 같이 구성된 음성부호화부(160)으로 보내진다. A/D변환기(163)로부터의 디지털신호는 입력단자(101)로 인가된다. 음성부호화부(160)은 도 1 및 도 3과 결부하여 설명한 바와같이 부호화를 수행한다. 도 1 및 도 2의 출력단자의 출력신호는 음성부호화부(160)의 출력신호로써 송신채널부호화부(164)로 보내져서, 그 후, 공급된 신호에 따라서 채널부호화를 수행하게 된다. 송신채널부호화부(164)의 출력신호는 변조를 위해 변조회로(165)로 보내지고, 그런다음 디지털/아날로그(D/A)변환기(166)와 RF증폭기(167)를 통해서 안테나(168)로 인가된다.

도 14는 도 4에 나타낸 바와같이 구성된 음성복호화부(260)를 사용하는 휴대용 단말기의 수신측을 나타낸다. 도 14의 안테나(261)에 의해 수신된 음성신호는 RF증폭기(262)에서 증폭되어서, 아날로그/디지털(A/D)변환기(263)를 통해 변조회로(264)로 인가되며, 그로부터 변조된 신호는 송신채널복호화부(265)로 인가된다. 복호화부(265)의 출력신호는 도 2 및 도 4에 나타낸 바와같이 구성된 음성복호화부(260)로 인가된다. 음성복호화부(260)는 도 2 및 도 4와 결부시켜 설명한 바와같이 신호를 복호화한다. 도 2 및 도 4의 출력단자(201)에서의 출력신호는 음성복호화부(260)의 신호로써 디지털/아날로그(D/A)변환기(266)로 보내진다. D/A변환기(266)로부터의 아날로그음성신호는 스피커(268)로 보내진다.

본 발명은 상술한 실시예에 한정되지 않는다. 예를들어, 음성분석측(엔코더) 또는 음성합성측(디코더)의 구성이 지금까지는 하드웨어적으로 설명되었지만, 소위 디지털신호프로세서(DSP)를 사용하는 소프트웨어프로그램으로도 실현될 수 있다. 또한, 복수의 프레임이 함께 수집되어 벡터양자화대신에 행렬양자를 이용해 양자화할 수도 있다. 또한, 음성부호화방법 또는 상응하는 음성부호화방법으로는 상술한 멀티밴드여기를 사용하는 음성합성/분석방법뿐만 아니라 정현합성을 이용해 음성의 유성음부를 합성하고 잡음신호를 기초로 하여 무성음성부를 합성하는 등의 각종 여러가지 음성합성/분석방법들을 사용할 수도 있다. 그 적용도 또한 광범위한 분야하게 적용될 수 있다. 즉, 본 발명은 송신 또는 기록/재생에만 제한되지 않고 음조변환, 속도보정 또는 잡음억제 등에도 적용될 수 있다.

본 발명에 따르면, 가우스잡음을 서로 다른 복수의 임계값과 벡터클립핑하여 얻어진 코드벡터가 벡터양자화를 수행하는 데 사용되어 다양한 음성형태를 수습한다.

Claims

시간축상의 입력음성신호를 단위로써 블록으로 분할하여 그 결과의 신호를 부호화하는 음성부호화방법에 있어서,

분석/합성을 이용하여 최적의 벡터에 대한 시간영역 폐루프탐색으로 벡터양자화하는 부호화단계를 포함하며, 상기 벡터양자화용 코드북으로써 복수의 임계값에서 가우스잡음을 클립핑함으로써 생성되는 코드북을 사용하는 것을 특징으로 하는 음성부호화방법.
제 1항에 있어서,

상기 벡터양자화용 코드북은 상기 가우스잡음을 클립핑함으로써 생성되는 코드벡터와 가우스잡음을 클립핑하여 얻어진 코드북벡터를 초기값으로 사용하여 학습함으로써 얻어지는 코드북벡터로 이루어지는 것을 특징으로 하는 음성부호화방법.
시간축상의 입력음성신호를 단위로써 블록으로 분할하여 그 결과의 신호를 부호화하는 음성부호화장치에 있어서,

분석/합성을 이용하여 최적의 벡터에 대한 시간영역 폐루프탐색으로 벡터양자화하는 부호화수단을 포함하며, 상기 벡터양자화용 코드북으로써 복수의 임계값에서 가우스잡음을 클립핑함으로써 생성되는 코드북을 사용하는 것을 특징으로 하는 음성부호화장치.
제 3항에 있어서,

상기 벡터양자화용 코드북은 상기 가우스잡음을 클립핑함으로써 생성되는 코드벡터와, 가우스잡음을 클립핑하여 얻어진 코드북벡터를 초기값으로 사용하여 학습함으로써 얻어지는 코드북벡터로 이루어지는 것을 특징으로 하는 음성부호화장치.
입력음성신호를 증폭하기 위한 증폭수단과,

증폭된 결과의 신호를 A/D변한하기 위한 A/D변환수단과,

상기 부호화된 신호를 채널복호화하기 위한 송신경로 부호화수단과,

상기 D/A변환수단으로부터의 신호를 증폭하여 그 증폭신호를 안테나로 인가하기 위한 변조수단과,를 포함하며,

상기 음성부호화수단은 분석/합성방법을 사용하여 최적의 벡터에 대한 시간영역 폐루프탐색을 벡터양자화하기 위한 부호화수단을 더 포함하며, 상기 벡터양자화를 위한 코드북으로써 복수의 임계값에서 가우스잡음을 클립핑하여 생성되는 코드북을 사용하는 것을 특징으로 하는 휴대용 무선단말장치.