KR100427754B1 - 음성부호화방법및장치와음성복호화방법및장치 - Google Patents

음성부호화방법및장치와음성복호화방법및장치 Download PDF

Info

Publication number
KR100427754B1
KR100427754B1 KR1019960048690A KR19960048690A KR100427754B1 KR 100427754 B1 KR100427754 B1 KR 100427754B1 KR 1019960048690 A KR1019960048690 A KR 1019960048690A KR 19960048690 A KR19960048690 A KR 19960048690A KR 100427754 B1 KR100427754 B1 KR 100427754B1
Authority
KR
South Korea
Prior art keywords
encoding
signal
short
term prediction
speech
Prior art date
Application number
KR1019960048690A
Other languages
English (en)
Other versions
KR970024628A (ko
Inventor
마사유끼 니시구찌
가쯔유끼 이지마
준 마츠모또
시로 오모리
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR970024628A publication Critical patent/KR970024628A/ko
Application granted granted Critical
Publication of KR100427754B1 publication Critical patent/KR100427754B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

입력음성신호는 부호화단위로써 블록이나 프레임으로 분할되며 부호화단위로 부호화되는 음성부호화방법 및 장치에서는, 파열음이나 마찰음을 완벽하게 재생할 수 있는 한편, 유성음(V)부와 무성음(UV)부 사이의 전이부분에서 이질의 사운드가 생성될 위험이 없으며, 따라서 "답답한" 느낌이 없는 상당히 명료한 음성을 생성할 수 있다. 부호화장치는 고조파부호화를 실행하기 위해 입력음성신호의 선형예측부호화(LPC)의 잔차를 구하는 제 1부호화부(110)와 파형부호화에 의해 입력음성신호를 부호화하는 제 2부호화부(120)와를 포함한다. 제 1부호화부(110)와 제 2부호화부(120)는 각각 입력신호의 유성음(V)부 및 무성음(UV)부를 부호화하기 위해 이용된다. 분석/합성법을 이용하여 최적의 벡터의 폐루프탐색에 의한 벡터양자화를 이용하는 코드여기 선형예측(CELP)부호화기의 구조가 제 2부호화부(120)에 이용된다.

Description

음성부호화방법 및 장치와 음성복호화방법 및 장치
본 발명은 입력된 음성신호가 부호화단위로서 블록이나 프레임으로 분할되어 그 부호화단위로 부호화되는 음성부호화방법, 부호화된 신호를 복호화하기 위한 복호화방법과 음성 부호화/복호화 방법에 관한 것이다.
지금까지 시간영역 및 주파수영역내의 신호에 대한 통계적 특성과 사람의 귀의 정신 음향적인 특성을 이용하여 신호압축을 위해 오디오신호(음성 및 음향신호를 포함)를 부호화하기 위한 여러가지 부호화방법이 알려져 있다. 그러한 부호화방법은 대체로 시간영역부호화, 주파수영역부호화 및 분석/합성부호화로 분류된다.
음성신호에 대한 고효율의 부호화의 예로는 고조파부호화, 멀티밴드여기(multi-band excitation)(MBE)부호화, 서브밴드부호화(SBC), 선형예측부호화(LPC), 이산코사인변환(DCT), 변형된 DCT(MDCT) 및 고속푸리에변환(FFT) 등과 같은 정현분석부호화(sinusoidal analysis encoding)를 포함한다.
종래의 MBE부호화나 고조파 부호화에 있어서, 무성음부분은 음성생성회로에 의해 생성된다. 그러나, 이러한 방법은 p, k 또는 t와 같은 파열음과 마찰음을 완벽하게 생성할 수 없다는 결점이 있다.
더욱이, 만일 선스펙트럼쌍(LSP)과 같이 전혀 다른 특성을 갖는 부호화된 파라미터가 유성음(V)부와 무성음(UV)부 사이의 과도 부분에서 보간되면, 관계없는 음이나 다른 음성이 생성되는 경향이 있다.
또한, 종래의 정현합성 부호화에서는, 특히 낮은 음조의 음성 특히 남성의 음성은 부자연스러운 "답답한" 음성이 되기 쉽다.
그러므로 본 발명은 음성부호화방법 및 장치와 음성복호화방법 및 장치를 제공함으로써 파열음이나 마찰음이 유성음의 음성과 무성음의 음성 사이의 과도 부분에서 생성되는 이상한 음성이 발생할 위험이 없이 완벽하게 재생함으로써, "답답한" 느낌이 전혀 없는 상당히 명료한 음성을 생성할 수 있게 하는 것이다.
본 발명의 음성부호화방법에 있어서, 입력된 음성신호가 소정의 부호화단위로 시간측에서 분할되고 그 후 소정의 부호화단위로 부호화되는 경우에, 입력된 음성신호의 단기 예측잔차가 발견되며, 이렇게 발견된 단기 예측잔차는 정현분석부호화에 의해 부호화됨으로써, 입력된 음성신호가 파형부호화에 의해 부호화된다.
입력음성신호가 유성음인지 유성음인지에 대해 판별한다. 판별결과에 기초해서, 유성음으로 판정된 입력음성신호의 부분은 정현분석부호화로 부호화하고, 반면 무성음이라고 판정된 부분은 분석-합성법을 이용하여 최적의 벡터 폐루프탐색에 의한 시간축 파형의 벡터양자화로 처리한다.
정현분석부호화를 위해서, 단기 예측잔차를 양자화하기 위해서 상당히 가중된 벡터양자화나 행렬양자화를 이용하며, 상기 상당히 가중된 벡터양자화나 행렬양자화를 위해서는 가중치전달함수의 임펄스응답으로부터 유도되는 파라미터의 직교변환의 결과에 기초해서 가중치를 계산하는 것이 바람직하다.
본 발명에 따르면, 입력된 음서신호의 LPC잔차 등과 같은 단기 예측잔차가 발견되며, 단기 예측잔차는 합성된 정현파로 나타내며, 반면 입력된 음성신호는 입력된 음성신호의 위상전송의 파형부호화에 의해 부호화됨으로써, 효율적인 부호화를 실현하게 된다.
또한, 입력된 음성신호가 유성음인지 무성음인지에 대해 판별되고, 그 판별결과에 기초하여, 유성음으로 판별되는 입력음성신호 부분은 정현분석부호화를 이용하여 부호화하고, 반면 무성음으로 판별되는 부분은 분석/합성법을 이용하여 최적벡터의 폐루프탐색에 의해 시간축파형의 벡터양자화로 처리함으로써, 무성음부의 표현을 개선하여서 상당히 명료한 재생음성을 생성하게 된다. 특별히, 그 비율을 높임으로써 그 표과를 강화시킨다. 또한 유성음부와 무성음부 사이의 전이부분에서 외부의 음성이 생성되는 것을 방지할 수 있다. 유성음부에서의 외관의 합성음성이 감소됨으로써 보다 자연스러운 합성음성을 생성한다.
가중치전달함수의 임펄스응답으로부터 유도되는 파라미터의 직교변환의 결과에 기초하여 주파수영역신호로 변환된 입력신호의 파라미터의 벡터양자화를 가중할 때의 가중치를 계산함으로써, 처리량이 소량으로 감소될 수 있으며 따라서 구성을 간략하게 하거나 처리작동을 신속하게 처리할 수 있게 된다.
도 1은 본 발명에 따른 부호화방법을 수행하기 위한 음성신호 부호화장치(엔코더)의 기본구성을 나타내는 블록도.
도 2는 본 발명에 따른 복호화방법을 수행하기 위한 음성신호 복호화장치(디코더)의 기본구성을 나타내는 블록도.
도 3은 도 1에 도시된 음성신호 엔코더의 보다 구체적인 구성을 나타내는 블록도.
도 4는 도 2에 도시된 음성신호 디코더의 보다 상세한 구성을 나타내는 블록도.
도 5는 LPC양자화기의 기본구성을 나타내는 블록도.
도 6은 LPC양자화기의 보다 상세한 구성을 나타내는 블록도.
도 7은 벡터양자화기의 기본구성을 나타내는 블록도.
도 8은 벡터양자화기의 보다 상세한 구성을 나타내는 블록도.
도 9는 벡터양자화에 이용되는 무게를 측정하기 위한 처리순서의 구체적인 예를 설명하기 위한 플로우차트도.
도 10은 본 발명에 따른 음성신호엔코더의 CELP부호화부(제 2부호화부)의 상세한 구성을 나타내는 블록회로도.
도 11은 도 10의 배열에서 처리흐름을 설명하는 플로우차트도.
도 12는 서로 다른 임계값으로 클립핑한 후 가우스잡음을 설명하는 도면.
도 13은 학습에 의해 형상코드북을 생성할 때의 처리흐름을 나타내는 플로우차트도.
도 14는 10차수의 LPC분석에 의해 얻어진α파라미터로부터 획득된 10차수 선형스펙트럼쌍을 나타내는 도면.
도 15는 UV프레임으로부터 V프레임으로의 이득변경의 방법을 설명하는 도면.
도 16은 스펙트럼과 프레임에서 프레임으로 합성된 파형과의 보간법을 설명하는 도면.
도 17은 유성음(V)부와 무성음(UV)부 사이의 접속점에서 중첩하는 방법을 설명하는 도면.
도 18은 유성음의 합성시에 잡음가산작동을 설명하는 도면.
도 19는 유성음의 합성시에 가산된 잡음의 진폭을 측정하는 일례를 설명하는 도면.
도 20은 포스트필터의 구성일례를 설명하는 도면.
도 21은 포스트필터의 필터계수 업데이트(update)와 이득 업데이트를 설명하는 도면.
도 22는 포스트필터의 필터계수와 이득의 프레임경계에서 접속부의 처리를 설명하는 도면.
도 23은 본 발명에 따른 음성신호 엔코더를 이용하는 휴대용단말기의 송신측의 구성을 나타내는 블록도.
도 24는 본 발명에 따른 음성신호 디코더를 이용하는 휴대용 단말기의 수신측의 구성을 나타내는 블록도.
* 도면의 주요부분에 대한 부호설명
110. 제 1부호화부(제 1부호화장치)
111. 역LPC필터 113. LPC분석/양자화부
114. 정현분석 부호화부 116. 벡터양자화부
120. 제 2부호화부(제 2부호화장치) 121. 잡음코드북
122. 가중합성필터 124. 거리계산회로
125. 청각가중필터 211. 유성음성 합성부
220. 무성음성 합성부 410. 잡음진폭 제어회로
417. 잡음가중회로 440. 스펙트럼형상필터
500. 제 1벡터양자화부 510. 제 2벡터양자화부
620. 행렬양자화부 640. 벡터양자화부
도면을 참고하여, 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 음성부호화방법을 수행하기 위한 부호화장치의 기본구성을 나타낸다.
도 1의 음성신호엔코더의 기초가 되는 기본개념은, 엔코더가 고조파 부호화 등의 정현분석부호화를 수행하기 위하여 입력음성신호에 대한, 선형예측부호화(LPC)잔차 등의 단기 예측잔차를 탐색하기 위한 제 1부호화장치(110)와, 위상재생가능성을 갖춘 파형부호화를 이용해 입력음성신호를 부호화하기 위한 제 2부호화장치(120)를 포함하는 것과, 제 1 및 제 2부호화장치(110, 120)가 각각 입력신호의 유성음(V)부 및 무성음(UV)부를 부호화하기 위해 사용되는 것에 있다.
제 1부호화장치(110)는 예를들어 LPC잔차를 고조파부호화 또는 멀티밴드부호화(MBE)등의 정현분석부호화를 이용하여 부호화하는 구성을 갖는다. 제 2부호화장치(120)는 예를들어 분석/합성방법을 이용하고, 최적의 벡터의 폐루프탐색에 의한 벡터양자화를 이용하는 코드여기(勵起)선형예측(CELP)을 수행하는 구성을 갖는다.
도 1에 도시된 실시예에 있어서, 입력단자(101)에 인가되는 음성신호는 제 1부호화장치(110)의 역LPC필터(111)와 LPC분석/양자화부(113)로 보내진다. LPC분석/양자화부(113)로부터 산출된 LPC계수 또는 소위α-파라미터는 제 2부호화장치(120)의 역LPC필터(111)로 보내진다. 입력음성신호의 선형예측잔차(LPC장차)는 역LPC필터(111)로부터 취해진다. 후술하는 바와같이, LPC분석/양자화부(113)로부터 선형스펙트럼쌍의 양자화된 출력이 취해지고, 출력단자(102)로 보내진다. 역LPC필터(111)로부터의 LPC잔차는 정현분석 부호화부(114)로 보내진다. 정현분석 부호화부(114)는 음조검출, 스펙트럼 포락선(엔벌로프)의 진폭계산 및 유성음(V)/무성음(UV)판별부(115)에 의한 V/UV판별을 행한다. 정현분석 부호화부(114)로부터의 스펙트럼포락선 진폭데이터는 벡터양자화부(116)로 보내진다. 스펙트럼 포락선의 벡터양자화출력으로써 벡터양자화부(116)로부터의 코드북지수는 스위치(117)를 통해서 출력단자(103)로 보내지는 한편, 정현분석 부호화부(114)의 출력은 스위치(118)를 통해서 출력단자(104)로 보내진다. V/UV판별부(115)로부터의 V/UV판별출력은 출력단자(105)로 보내지는 한편, 제어신호로서 스위치(117, 118)로 보내진다. 만일 입력음성신호가 유성음(V)이라면, 지수와 음조가 출력단자(103, 104)에서 선택되고 도출된다.
본 실시예에 있어서, 도 1의 제 2부호화장치(120)는 코드여기(勵起)선형예측(CELP부호화)구성을 갖추어 구성되며, 잡음코드북(121)의 출력이 가중합성필터(122)에 의해 합성되는 분석/합성방법을 이용하는 폐루프탐색을 이용하여 시간영역파형의 벡터양자화를 수행하며, 그 결과의 가중합성은 감산기(123)에 인가되며, 가중음성과 입력단자(101)로 인가되어 상당히 청각가중필터(125)를 통과하는 음성신호 사이의 오차가 도출되어서, 이렇게 발견된 에러가 거리계산회로(124)로 보내져서 거리계산을 수행하게 되며, 상기 오차를 최소화하는 벡터가 잡음코드북(121)에 의해 탐색된다. 이러한 CELP부호화는 상술한 바와같이 무성음부를 부호화하는데 사용된다. 잡음코드북(121)으로부터의 UV데이터로써의 코드북지수는 V/UV판별결과가 무성음(UV)일 때 턴온되는 스위치(127)를 통해서 출력단자(107)에서 도출된다.
도 2는 도 1의 음성신호 엔코더의 대응장치로서, 본 발명을 따르는 음성복호화방법을 수행하기 위한 음성신호 디코더의 기본 구조를 나타내는 블록도이다.
도 2를 참고로 하면, 도 1의 출력단자(102)로부터의 선형스펙트럼쌍(LPS)의 양자화출력으로서의 코드북지수는 입력단자(202)로 인가된다. 도 1의 출력단자(103, 104 및 105)의 출력들, 즉 음조, V/UV판별출력 및 포락선 양자화출력으로써의 지수데이터들은 각각 입력단자(203∼205)로 인가된다. 무성음데이터용 데이터로서의 지수데이터는 도 1의 출력단자(107)에서 입력단자(207)로 인가된다.
입력단자(203)의 포락선 양자화출력으로서의 지수는 역벡터양자화를 위해 역벡터양자화부(212)로 보내져서, 유성음성합성부(211)로 보내지는 LPC잔차의 스펙트럼포락선을 구하게 된다. 유성음성합성부(211)는 정현합성을 이용해 유성음성부의 선형예측부호화(LPC)잔차를 합성한다. 유성음성합성부(211)에는 또한 입력단자(204, 205)로부터의 음조와 V/UV판별출력이 인가된다. 유성음성합성부(211)로부터의 유성음성의 LPC잔차는 LPC합성필터(214)로 보내진다. 입력단자(207)로부터의 UV데이터의 지수데이터는 무성음성 합성부(220)로 인가되며, 여기서 무성음부의 LPC잔차를 도출하는 잡음코드북에 대한 조사가 이루어진다. 이러한 LPC잔차는 또한 LPC합성필터(214)로 보내진다. LPC합성필터(214)에서, 유성음부의 LPC잔차와 무성음부의 LPC잔차는 LPC합성에 의해 처리된다. 선택적으로, 서로 합해진 유성음부의 LPC잔차와 무성음부의 LPC잔차는 LPC합성으로 처리될 수도 있다. 입력단자(202)로부터의 LPC지수데이터는 LPC파라미터재생부(213)로 인가되어 LPC의α-파라미터가 도출되어 LPC합성필터(214)로 보내진다. LPC합성필터(214)에 의해 합성된 음성신호는 출력단자(201)에서 도출된다.
이제, 도 3을 참고로 하여, 도 1에 나타낸 음성신호 엔코더의 보다 상세한 구조를 설명한다. 도 3에서, 도 1에 나타낸 구성요소와 동일한 구성요소는 동일한 참조부호로 표시한다.
도 3에 도시된 음성신호엔코더에서, 입력단자(101)에 인가된 음성신호는 불필요한 범위의 신호를 제거하기 위해 고역통과필터(HPF)(109)에 의해 필터링된 후, LPC분석/양자화부(113)의 LPC분석회로(132)와 역LPC필터(111)로 인가된다.
LPC분석/양자화부(113)의 LPC분석회로(132)는 256샘플의 순서대로 입력신호파형의 길이를 갖춘 해밍윈도우(Hamming window)를 블럭으로 이용하여 자기상관법을 이용하여 선형예측계수, 소위α-파라미터를 구한다. 데이터출력단위로써의 프레임간격을 대략 160샘플로 설정한다. 만일 예를들어 샘플링주파수(fs)가 8kHz라면, 1프레임간격은 20msec이거나 160샘플이다.
LPC분석회로*132)로부터의α-파라미터는 선형스펙트럼쌍(LSP)파라미터로 변환하기 위해α-LSP변환회로(133)로 보내진다.α-LSP변환회로(133)는 다이렉트형 필터계수에 의해 알려진α-파라미터를 10개 즉 LSP파라미터의 5개쌍으로 변환한다. 이 변환은 예를들어 뉴튼-랩슨(Newton-Rhapson)법에 의해 실행된다.α-파라미터가 LSP파라미터로 변환되는 이유는 LSP파라미터가 보간특성에 있어서α-파라미터 보다 우수하기 때문이다.
α-LSP변환회로(132)로부터의 LSP파라미터는 LSP양자화기(134)에 의해 양자화된 행렬 또는 벡터이다. 벡터양자화에 앞서 프레임 대 프레임 차를 취할 수도 있고 또는 행렬양자화를 위해 다수의 프레임을 수집할 수도 있다. 본 발명의 경우에는, 20msec마다 계산된 2개의 프레임(각 20msec임)의 LSP파라미터를 다루어 행렬양자화 및 벡터양자화처리를 한다.
양자화기(134)의 양자화된 출력, 즉 LSP양자화의 지수데이터는 단자(102)에서 추출되며, 반면 양자화된 LSP벡터는 LSP보간회로(136)로 보내진다.
LSP보간회로(136)는 매 20msec이나 40msec마다 양자화 된 LSP벡터를 보간처리하여, 옥타튜플 레이트(octatuple rate)를 제공한다. 즉, LSP벡터는 매 2.5msec마다 업데이트된다. 그 이유는, 만일 잔차파형이 고조파 부호화/복호화법에 의하여 분석/합성처리된다면, 합성파형의 포락선은 극도로 누그러진 파형을 나타내므로,LPC계수가 20msec마다 갑작스럽게 변한다면, 이상잡음이 생성되기 쉽기 때문이다. 따라서 LPC계수가 재 2.5msec마다 점차적으로 변한다면, 그러한 이상잡음이 발생하는 것을 억제할 수 있을 것이다.
매 2.5msec마다 생성되는 보간된 LSP벡터를 이용하여 입력음성을 역필터링하기 위해서, LSP파라미터는 LSP→α변환회로(137)까지에 의해서 10차수다이렉트형 필터의 필터계수인α-파라미터로 변환된다. LSP→α변환회로(137)까지의 출력은 2.5msec마다 업데이트된α-파라미터를 이용하여 양호한 출력을 생성하기 위한 역필터링을 실행하는 역 LPC필터(111)로 보내진다. 역LPC필터(111)의 출력은 고조파 부호화회로와 같은 정현분석 부호화부(114)의, DCT회로와 같은 직교변환회로(145)로 보내진다.
LPC분석/양자화부(113)의 LPC분석회로(132)로부터의α-파라미터는 청각가중필터계산회로(139)로 보내지고 여기서 가중용 데이터가 구해진다. 이들 가중데이터는 가중벡터양자화기(116), 제2부호화장치(120)의 청각가중필터(125) 및 가중합성필터(122)로 보내진다.
고조파 부호화회로의 정현분석 부호화부(114)는 고조파부호화법에 의해 역LPC필터(111)의 출력을 분석한다. 즉, 음조검출과, 각 고조파의 진폭계산 및 유성음(V)/무성음(UV)판별이 행해지며, 음조에 있어 다양한 진폭(Am)의 수 또는 각 고조파의 포락선은 치수변환에 의해 일정하게 만들어진다.
도 3에 도시된 정현분석 부호화부(114)의 설명에 있어서, 평범한 고조파부호화를 이용한다. 특히, 멀티밴드여기(MBE)부호화에 있어서, 유성음부와 무성음부가동일한 시점(동일한 블록이나 프레임)에서 각 주파수영역이나 밴드에 존재하는 모델이라 가정한다. 다른 고조파부호화법에 있어서는, 하나의 블록내 또는 하나의 프레임내의 음성이 유성음인지 무성음인지를 훌륭하게 판별한다. 이하의 설명에 있어서, MBE부호화가 관련되는 한, 전체의 대역이 UV이면 주어진 프레임은 UV라고 판정된다. 상기 설명된 바와 같이 MBE용 분석/합성법의 기술의 구체적인 예는 본 출원의 양수인의 이름으로 제출된 일본특허출원 제 4-91442에서 발견할 수 있을 것이다.
도 3의 정현분석 부호화부(114)의 개루프 음조탐색부(141)와 제로크로싱카운터(142)에는 입력단자(101)로부터의 입력음성신호와 고역통과필터(HPF)(109)로부터의 신호가 각각 공급된다. 정현분석 부호화부(114)의 직교변환회로(145)에는 역 LPC필터(111)로부터의 LPC잔차 또는 선형예측잔차가 인가된다. 개루프 음조탐색부(141)는 입력신호의 LPC잔차를 취하여 개루프탐색으로 비교적 거친 음조탐색을 실행한다 추출된 거친 음조데이터는 이하에 설명될 폐루프탐색에 의해 정밀음조탐색회로(146)로 보내진다. 개루프음조탐색부(141)로부터는, 거친 음조데이터와 함께 자기상관율의 LPC잔차의 최대치를 정규화함으로써 얻어진 정규화된 자기상관율(r(p))의 최대치가 거친 음조데이터와 함께 추출되어서, V/UV판별부(115)로 보내지게 된다.
직교변환회로(145)는 이산푸리에변환(DFT)등의 직교변환을 수행하여 시간축상의 LPC잔차를 주파수축상의 스펙트럼진폭데이터로 변환한다. 직교변환회로(145)의 출력은 정밀음조탐색부(146) 및 스펙트럼평가부(148)로 보내져서 스펙트럼진폭또는 포락선을 평가하게 된다.
정밀음조탐색부(146)에는 개루프 음조탐색부(141)에 의해 추출된 비교적 거친 음조데이터와 직교변환부(145)에 의한 DFT에 의해 얻어진 주파수영역데이터가 인가된다. 정밀음조탐색부(146)는 거친 음조값데이터에 대해 중심에 있는 ±몇몇 샘플에 의한 음조데이터를 0.2∼0.5의 레이트(rate)로 회전시킴으로써, 결국 최적의 10진 포인트(부동포인트)를 갖는 정밀음조데이터의 값에 이른다. 분석/합성방법은 전력스펙트럼이 본래 음성의 전력스펙트럼에 밀접하게 되도록 음조를 선택하기 위한 정밀탐색기술로서 사용된다. 폐루프 정밀탐색부(146)로부터의 음조데이터는 스위치(118)를 거쳐서 출력단자(104)로 보내진다.
스펙트럼 평가부(148)에 있어서, 각 고조파의 진폭 및 그 고조파의 합으로서의 스펙트럼포락선은 스펙트럼진폭 및 LPC잔차의 직교변환출력으로서의 음조를 기초로 하여 평가되어, 정밀음조탐색부(146), V/UV판별부(115) 및 가중벡터양자화기(116)로 보내진다.
V/UV판별부(115)는 직교변환회로(145)의 출력, 정밀음조탐색부(146)로부터의 최적의 음조, 스펙트럼평가부(148)로부터의 스펙트럼진폭데이터, 개루프음조탐색부(141)로부터의 정규화된 자기상관율(r(p))의 최대치, 및 제로크로싱카운터(142)로부터의 제로크로싱카운트값을 기초로 하여 프레임의 V/UV를 판별한다. 또한, MBE용 기저대역의 V/UV판별의 경계부도 V/UV판별에 대한 조건으로 사용될 수 있다. V/UV판별부(115)의 판별출력은 출력단자(105)에서 추출된다.
스펙트럼평가부(148)의 출력부 또는 벡터양자화기(116)의 입력부에는 다수의데이터수 변환부(일종의 샘플링레이트변환을 수행하는 부분)가 부설되어 있다. 데이터수변환부의 수는 주파수축상에 분할된 대역수와 데이터수가 음조에 있어 다르다는 것을 고려하여 포락선의 진폭데이터|Am|를 일정한 값으로 설정하는데 사용된다. 즉, 유효대역이 3400kHz에 다다르면, 유효대역은 음조에 따라서 8∼63대역으로 분할될 수 있다. 밴드에서 밴드까지에서 얻어진 진폭데이터|Am|의 mMx + 1의 수는 8∼63의 범위 내에서 변화된다. 따라서, 데이터수변환부는 가변수(mMx + 1)의 진폭데이터를 44데이터 등의 소정수(M)의 데이터로 변환한다.
스펙트럼평가부(148)의 출력부 또는 벡터양자화기(116)의 입력부에 부설된 데이터수 변환부로부터의, 예로 44인 소정수(M)의 진폭데이터 또는 포락선데이터는 가중벡터양자화를 수행함으로써, 벡터양자화기(116)에 의해, 예로 44데이터인 소정수의 데이터가 하나의 단위로서 함께 다루어진다. 이러한 무게는 청각가중필터계산회로(139)의 출력에 의해 공급된다. 벡터양자화기(116)로부터의 포락선의 지수는 출력단자(103)에서 스위치(117)에 의해 도출된다. 가중 벡터양자화에 앞서, 소정의 데이터수로 구성된 벡터를 위해 적절한 누설계수를 사용하여 인터프레임차를 구하는 것이 좋다.
제 2부호화장치(120)를 설명한다. 제 2부호화장치(120)는 소위 CELP부호화구조를 가지며, 특히 입력음성신호의 무성음부를 부호화하는데 사용된다. 입력음성신호의 무성음부에 대한 CELP부호화구조에 있어서, 잡음코드북 또는 소위 확률적 코드북(121)의 대표출력값으로서 무성음사운드의 LPC잔차에 상응하는 잡음출력은 이득제어회로(126)를 통해 가중합성필터(122)로 보내진다. 가중합성필터(122)는 입력잡음을 LPC합성에 의해 LPC합성하여, 생성된 가중 무성음신호를 감산기(123)로 보낸다. 가산기(123)에는 고역통과필터(HPF)(109)를 통해서 입력단자(101)로부터 인가되어 청각가중필터(125)에 의해 청각가중된 신호가 인가된다. 감산기는 그 신호와 합성필터(122)로부터의 신호와의 차이 또는 오차를 구한다. 한편, 청각가중합성필터의 제로입력응답은 청각가중합성필터(125)의 출력에서 미리 감산된다. 이러한 오차는 거리계산을 위한 거리계산회로(124)로 인가된다. 오차를 최소화하게 될 대표적인 벡터값은 잡음코드북(121)에서 탐색된다. 이상은 분석/합성방법을 사용하는 폐루프탐색을 사용하여 시간영역파형의 벡터양자화에 대한 요약이다.
CELP부호화구조를 이용하는 제 2엔코더(120)로부터의 무성음(UV)부에 대한 데이터로써, 잡음코드북(121)으로부터는 코드북에 대한 형상지수가, 이득회로(126)로부터는 코드북에 대한 이득지수가 도출된다. 잡음코드북(121)으로부터의 UV데이터인 형상지수는 스위치(127s)를 거쳐 출력단자(107s)로 보내지며, 반면 이득회로(126)로부터의 UV데이터인 이득지수는 스위치(127g)를 통해 입력단자(107g)로 보내진다.
이러한 스위치(127s, 127g) 및 스위치(117, 118)는 V/UV판별부(115)로부터의 V/UV판별결과에 따라서 턴온 및 턴오프된다. 특히, 현재 송신되는 프레임의 음성신호에 대한 V/UV판별결과가 유성음(V)을 나타내는 경우에는 스위치(117, 118)가 턴온되는 한편, 현재 송신되는 프레임의 음성신호가 무성음(UV)을 나타내는 경우에는 스위치(127s, 127g)가 턴온된다.
도 4는 도 2에 나타낸 음성신호디코더의 보다 상세한 구조를 나타낸다.도 4에서는, 도 2에 나타낸 구성성분을 나타내기 위해서 동일한 참조부호를 사용하였다.
도 4에서, 도 1 및 도 3의 출력단자(102)에 상응하는 LSP의 벡터양자화출력, 즉 코드북지수는 입력단자(202)로 인가된다.
LSP지수는 선스펙트럼쌍(LSP)데이터로 역벡터양자화되도록 LPC파라미터생성부(213)용 LSP의 역벡터양자화기(231)로 보내져서, 보간을 위해 LSP보간회로(232, 233)로 인가된다. 결과의 보간데이터는 LSP→α변환회로(234, 235)에 의해α-파라미터로 변환되어서, LPC합성필터(214)로 보내진다. LSP보간회로(232)와 LSP→α변환회로(234)는 유성음(V)사운드용으로 설계되는 한편, LSP보간회로(233)와 LSP→α변환회로(235)는 무성음(UV)사운드용으로 설계된다. LPC합성필터(214)는 유성음성부의 LPC합성필터(236)와 무성음성부의 LPC합성필터(237)와로 구성된다. 즉, LPC계수보간처리는 유성음성부와 무성음성부에 대해 독립적으로 수행되어, 완전히 다른 특성의 LSPs에 대한 보간처리에 의해 유성음성부에서 무성음성부로의 혹은 그 반대로의 전이부분 내에 발생하는 역효과가 발생하는 것을 방지하게 된다.
도 4의 입력단자(203)에는 도 1 및 도 3의 엔코더의 단자(103)의 출력에 상응하여 가중된 스펙트럼포락선(Am)에 상응하는 코드지수데이터가 인가된다. 입력단자(204)에는 도 1 및 도 3의 단자(104)로부터의 음조데이터가 인가되며, 입력단자(205)에는 도 1 및 도 3의 단자(105)로부터의 V/UV판별데이터가 인가된다.
입력단자(203)로부터의 스펙트럼포락선(Am)의 벡터양자화 지수데이터는 역벡터양자화용의 역벡터양자화기(212)로 인가되며, 여기서 데이터수변환에 대한 역변환이 수행된다. 결과의 스펙트럼포락선데이터는 정현합성회로(215)로 보내진다.
인터프레임차가 부호화중에 스펙트럼의 벡터양자화에 앞서 구해지게 되면, 인터프레임차는 스펙트럼포락선데이터를 생성하는 역벡터양자화 후에 복호화된다.
정현합성회로(215)에는 입력단자(204)로부터의 음조와 입력단자(205)로부터의 V/UV판별데이터가 인가된다. 정현합성회로(215)로부터는 도 1 및 도 3에 나타낸 LPC역필터의 출력에 상응하는 LPC잔차데이터가 도출되어 가산기(218)로 보내진다. 정현합성의 구체적 기술은 예로 본 양수인에 의해 고안된 JP특허출원 제 4-91442 및 제 6-198451에 발표되었다.
역벡터양자화기(212)의 포락선데이터와 입력단자(204, 205)로부터의 음조데이터 및 V/UV판별데이터는 유성음부(V)에 대해 잡음가산을 위한 잡음합성회로(216)로 인가된다. 잡음합성회로(216)의 출력은 가중 중첩 및 가산회로(217)를 통해서 가산기(218)로 인가된다. 특히, 유성음사운드의 LPC합성필터에 대한 입력으로써 여기(勵起)가 정현파합성에 의해 생성되는 경우에는, 남성의 음성 등의 낮은 음조사운드에서는 답답한 느낌이 생성되고, 음질이 유성음사운드와 무성음사운드와의 사이로 급격히 변환함에 따라서 부자연스런 청감이 생성되는 사실을 고려하여, 잡음을 LPC잔차신호의 유성음성부에 가산한다. 그러한 잡음은 유성음성부의 LPC합성필터입력 즉, 여기(勵起)와 결부되어, 음조, 스펙트럼포락선의 진폭, 프레임의 최대진폭 또는 잔차신호레벨 등의 음성부호화데이터와 관계된 파라미터를 고려하고 있다.
가산기(218)의 가산출력은 LPC합성필터(214)의 유성음사운드용합성필터(236)에 인가되고, 여기서 LPC합성이 수행되어 시간파형데이터를 이루게 된 다음, 유성음성용 포스트필터(238v)에 의해 필터처리되어 가산기(239)로 보내진다.
도 3의 출력단자(107s, 107g)로부터의 UV데이터로서는, 형상지수와 이득지수가 도 4의 입력단자(207s, 207g)로 인가된 다음, 무성음성 합성부(220)로 보내진다. 단자(207s)로부터의 형상지수는 무성음성 합성부(220)의 잡음코드북(221)으로 인가되는 한편, 단자(207g)로부터의 이득지수는 이득회로(222)로 인가된다. 잡음코드북(221)에서 독출된 대표값출력은 무성음에 대한 LPC잔차에 상응하는 잡음신호성분이다. 이러한 대표값출력은 이득회로(222)에서 소정의 이득진폭이 되고, 유성음성부와의 접속을 완만히 하기 위해 윈도우처리되도록 윈도우처리회로(223)로 보내진다.
윈도우처리회로(223)의 출력은 LPC합성필터(214)의 무성음(UV)음성용 합성필터(237)로 보내진다. 합성필터(237)로 인가된 데이터는 LPC합성처리되어 무성음부에 대한 시간파형데이터가 된다. 무성음부의 시간파형데이터는 가산기(239)에 인가되기 전에 무성음부용 포스트필터(238u)에 의해 필터처리된다.
가산기(239)에서는, 유성음성용 포스트필터(238v)로부터의 시간파형신호와 무성음성용 포스트필터(238u)로부터의 무성음성부용 시간파형데이터는 서로 가산되고, 그 결과의 합산데이터는 출력단자(201)에서 도출된다.
상술한 음성신호 엔코더는 요구된 음질에 따라서 서로 다른 비트율의 데이터를 출력할 수 있다. 즉, 출력데이터는 다양한 비트율로 출력될 수 있다. 예를들어,낮은 비트율이 2kbps이고 높은 비트율이 6kbps이면, 출력데이터는 표 1에 나타낸이하의 비트율을 갖는 비트율데이터이다.
출력단자(104)로부터의 음조데이터는 언제나 8비트/20msec의 비트율로 유성음성용으로 출력되며, 출력단자(105)로부터의 V/UV판별출력은 언제나 1비트/20msec로 출력되게 된다. 출력단자(102)로부터 출력된 LSP양자화용 지수는 32비트/40msec와 48비트/40msec사이에서 절환된다. 반면에, 출력단자(103)에 의해 유성음성(V)이 출력되는 동안의 지수는 15비트/20msec와 87비트/20msec사이에서 전환된다. 출력단자(107s, 107g)로부터 출력된 무성음(UV)용 지수는 11비트/10msec와 23비트/5msec사이에서 절환된다. 유성음성(UV)용 출력데이터는 2kbps에 대해서는 40비트/20msec이고 6kbps에 대해서는 120비트/20msec이다. 반면에, 유성음성(UV)용 출력데이터는 2kbps에 대해서는 39비트/20msec이고 6kbps에 대해서는 117비트/20msec이다.
LPS양자화용 지수, 유성음성(V)용 지수 및 무성음성(UV)용 지수를 이하에 적절한 부분의 구성과 결부시켜 설명한다.
도 5 및 도 6을 참고로 하여, LSP양자화기(134)에 있어서의 행렬양자화 및 벡터양자화를 상세히 설명한다.
LPC분석회로(132)로부터의α-파라미터는 LSP파라미터로 변환하기 위한α-LSP회로(133)로 보내진다. P-차수 LPC분석이 LPC분석회로(132)에서 수행되면, Pα-파라미터가 계산된다. 이러한 Pα-파라미터는 버퍼(610)에 유지되어 있는 LSP파라미터로 변환된다.
버퍼(610)는 2프레임의 LSP파라미터를 출력한다. 이 2프레임의 LSP파라미터는 제 1행렬양자화기(6201)와 제 2행렬양자화기(6202)로 이루어진행렬양자화기(620)에 의해 행렬-양자화된다. 2프레임의 LSP파라미터는 제 1행렬양자화기(6201)에서 행렬-양자화되며, 결과의 양자화오차는 또한 제 2행렬양자화기(6202)에서 행렬-양자화된다. 행렬양자화는 시간축과 주파수축의 양측으로의 상관율을 이용한다. 행렬양자화기(6202)로부터의 두개의 프레임에 대한 양자화오차는 제 1벡터양자화기(6401)와 제 2벡터양자화기(6402)로 이루어진 벡터양자화부(640)로 입력된다. 제 1벡터양자화기(6401)는 두개의 벡터양자화부(650, 660)로 이루어진 반면, 제 2벡터양자화기(6402)는 두개의 벡터양자화부(670, 680)로 이루어져 있다. 행렬양자화부(620)로부터의 양자화오차는 제 1벡터양자화기(6401)의 벡터양자화부(650, 660)에 기초한 프레임으로 양자화된다. 그 결과의 양자화오차벡터는 또한 제 2벡터양자화기(6402)의 벡터양자화부(670, 680)에 의해 벡터양자화된다. 상술한 벡터양자화는 주파수축에 따른 상관율을 이용한다.
상술한 바와 같이 행렬양자화를 수행하는 행렬양자화부(620)는 제 1행렬양자화단계를 수행하기 위한 적어도 하나의 제 1행렬양자화기(6201)와 제 1행렬양자화에 의해 생성된 양자화오차를 행렬양자화하기 위해 제 2행렬양자화단계를 수행하는 적어도 하나의 제 2행렬양자화기(6202)를 포함한다. 상술한 바와같이 벡터양자화를 수행하는 벡터양자화부(640)는 제 1벡터양자화단계를 수행하기 위한 적어도 하나의 제 1벡터양자화기(6401)와 제 1벡터양자화에 의해 생성된 양자화오차를 벡터양자화하기 위해 제 2벡터양자화단계를 수행하는 적어도 하나의 제 2벡터양자화기(6402)와를 포함한다.
이하, 행렬양자화 및 벡터양자화를 상세히 설명한다.
버퍼(600)에 저장되어 있는 2개의 프레임에 대한 LSP파라미터, 즉 10×2행렬이 제 1행렬양자화기(6201)로 보내진다. 제 1행렬양자화기(6201)는 2개의 프레임에 대한 LSP파라미터를 LSP파라미터 가산기(621)를 통해 가중거리계산부(623)로 인가하여 최소값의 가중거리를 구하게 된다.
제 1행렬양자화기(6201)에 의한 코드북탐색동안의 왜곡측정(dMQ1)은 다음 수학식 1로 주어진다.
여기서, X1는 LSP파라미터이고 X1'는 양자화값인 한편, t 및 i는 P-차원수가 된다.
주파수축 및 시간축으로의 가중치제한을 고려하지 않는 무게(w)는 수학식 2로 주어진다.
여기서 x(t, 0) = 0이고, x(t, p+1)는 t에 관계없이 π이다.
수학식 2의 무게(w)는 또한 하류측 행렬양자화 및 벡터양자화에도 사용된다.
계산된 가중거리는 행렬양자화용 행렬양자화기(MQ1)(622)로 보내진다. 이 행렬양자화에 의해 출력된 8-비트의 지수는 신호절환기(690)로 보내진다. 행렬양자화에 의한 양자화값은 버퍼(610)로부터의 2프레임용 LSP파라미터로부터 가산기(621)에서 감산된다. 가중거리계산부(623)는 매 2프레임 마다 가중거리를 계산하므로, 그 결과 행렬양자화가 행렬양자화부(622)에서 수행된다. 또한, 가중거리를 최소화하는 양자화값이 선택된다. 가산가(621)의 출력은 제 2행렬양자화기(6202)의 가산기(631)로 보내진다.
제 1행렬양자화기(6201)와 비슷하게, 제 2행렬양자화기(6202)는 행렬양자화를 수행한다. 가산기(621)의 출력은 가산기(631)를 통해 가중거리 계산부(633)로 보내지며, 여기서 최소의 가중거리가 계산된다.
제 2행렬양자화기(6202)에 의한 코드북탐색동안의 왜곡측정(dMQ2)은 수학식 3에 의해 주어진다.
가중거리는 행렬양자화를 위해 행렬양자화부(MQ2)(632)로 보내진다. 행렬양자화에 의해 출력된 8-비트의 지수는 신호절환기(690)로 보내진다. 2프레임의 양자화오차로부터 가산기(631)에 의해 감산된다. 가중거리 계산부(633)는 가산기(631)의 출력을 이용하여 가중거리를 계속해서 계산한다. 가중거리를 최소화하는 양자화값이 선택된다. 가산기(631)의 출력은 제 1벡터양자화기(6401)의 가산기(651, 661)로 한 프레임씩 차례대로 보내진다.
제 1벡터양자화기(6401)는 한 프레임씩 차례대로 벡터양자화를 수행한다. 가산기(631)의 출력은 한 프레임씩 차례대로 가산기(651, 661)를 통해서 각각의 가중거리 계산부(653, 663)로 보내져서, 최소의 가중거리를 계산하게 된다.
양자화오차(X2)와 양자화오차(X2')간의 차는 (10×2)행렬이다. 만일 그 차가 X2- X2' = [x 3-1,x 3-2]와 같이 나타나는 경우, 제 1벡터양자화기(6401)의 벡터양자화부(652, 662)에 의한 코드북탐색동안의 왜곡측정(dVQ1, dVQ2)은 수학식 4 및 5에 의해 주어진다.
가중거리는 벡터양자화를 위해 벡터양자화부(VQ1)(652)와벡터양자화부(VQ2)(662)로 보내진다. 이 벡터양자화에 의해 출력된 각 8-비트의 지수는 신호전환기(690)로 보내진다. 양자화값은 입력 2프레임의 양자화오차 벡터로부터 가산기(651, 661)에 의해 감산된다. 가중거리 계산부(653, 663)는 가산기(651, 661)의 출력을 이용하여 가중거리를 연속적으로 계산하여, 가중거리를 최소화하는 양자화값을 선택한다. 가산기(651, 661)의 출력은 제 2벡터양자화기(6402)의 가산기(671, 681)로 보내진다.
로 보내진다.
에 대한, 제 2벡터양자화기(6402)의 벡터양자화기(672, 682)에 의한 코드북탐색 동안의 왜곡측정(dVQ3, dVQ4)은 수학식 6, 7에 의해 주어진다.
이러한 가중거리는 벡터양자화를 위해 벡터양자화기(VQ3)(672)와 벡터양자화기(VQ4)(682)로 보내진다. 벡터양자화로부터의 8-비트의 출력지수데이터는가산기(671, 681)에 의해 2프레임에 대한 입력 양자화오차 벡터로부터 감산된다. 가중거리 계산부(673, 683)는 가산기(671, 681)의 출력을 이용하여 가중거리를 연속해서 계산하여, 가중거리를 최소화하는 양자화값을 선택하게 된다.
코드북학습동안에는, 학습은 각각의 왜곡측정을 기초로 일반적인 로이드 알고리듬(Lloyd algorithm)에 의해 수행된다.
코드북탐색동안의 왜곡측정과 학습동안의 왜곡측정은 서로 다른 값이 될 수도 있다.
행렬양자화부(622, 632) 및 벡터양자화부(652, 662, 672 및 682)로부터의 8-비트의 지수데이터는 신호절환기(690)에 의해 절환되어 출력단자(691)에서 출력된다.
특히, 제 1행렬양자화단계를 수행하는 제 1행렬양자화기(6201)의 출력과, 제 2행렬양자화단계를 수행하는 제 2행렬양자화기(6202)의 출력과, 제 1벡터양자화단계를 수행하는 제 1벡터양자화기(6401)의 출력은 저속의 비트율로 도출되는 한편, 그러한 저속의 비트율로의 출력은 제 2벡터양자화단계를 수행하는 제 2벡터양자화기(6402)의 출력에 합해져서, 그 결과의 합은 고속의 비트율로 도출된다.
상기 결과의 합은 2kbps 및 6kbps에 대해 각각 32비트/40msec의 지수 및 48비트/40msec의 지수를 출력한다.
행렬양자화부(620)와 벡터양자화부(640)는 LPC계수를 나타내는 파라미터의특성에 따라 주파수축 및/또는 시간축으로 제한된 가중(weighting)을 수행한다.
LSP파라미터의 특성에 따라 주파수축으로 제한된 가중을 우선 설명한다. 만일 차수 P = 10이면, LSP파라미터(X(i))는 다음과 같이 저, 중, 고영역의 3가지 영역으로 그룹화 된다.
만일, 그룹(L1, L2및 L3)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 가중은 다음의 수학식 8, 9 및 10으로 주어진다.
각 LSP파라미터의 가중은 각각의 그룹에서만 수행되며, 그러한 무게는 각 그룹에 대한 가중에 의해 제한된다.
시간축방향을 보면, 각 프레임의 총합은 반드시 1이므로, 시간축방향으로의 제한은 프레임에 근거한다. 시간축방향으로만 제한되는 무게는 다음의 수학식 11로 주어진다.
여기서 1 ≤ i ≤ 10 이고, 0 ≤ t ≤ 1이다.
이 수학식 11에 의해, 주파수축방향으로 제한되지 않는 가중이 t = 0 및 t = 1의 프레임수를 갖는 두개의 프레임사이에서 수행된다. 시간축방향으로만 제한되는 이러한 가중은 행렬양자화로 처리된 두개의 프레임사이에서 수행된다.
학습하는 동안의, 총수(T)를 갖는 학습데이터로써 사용되는 총 프레임은 다음 수학식 12에 따라서 가중된다.
여기서 1 ≤ i ≤ 10이고 0 ≤ t ≤ T이다.
주파수축방향 및 시간축방향으로 제한되는 가중을 설명한다. 만일 차수 P = 10이면, LSP파라미터(x(i, t))는 다음과 같이 저, 중, 고영역의 3가지 영역으로 분류된다.
만일, 그룹(L1, L2및 L3)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 가중은 다음의 수학식 13, 14 및 15로 주어진다.
이들 수학식 13, 14 및 15에 의해, 매 3프레임마다 주파수축으로 제한되고 행렬양자화로 처리되는 두개의 프레임을 가로지르는 가중이 수행된다. 이것은 코드북탐색 및 학습중에 유효하다.
학습동안의, 가중은 전체데이터의 총프레임용이다. LSP파라미터(x(i, t))는 다음과 같은 저, 중, 고영역으로 그룹으로 분류된다.
만일, 그룹(L1, L2및 L3)의 가중(weighting)이 각각 1/4, 1/2 및 1/4이면, 주파수축으로만 제한되는 그룹(L1, L2및 L3)의 가중(weighting)은 다음의 수학식 16, 17 및 18로 주어진다.
이들 수학식 16, 17 및 18에 의해, 주파수축방향으로의 3영역에 대한 가중이수행될 수 있어, 시간축방향으로의 총 프레임을 가로지르게 된다.
또한, 행렬양자화부(620)와 벡터양자화부(640)는 LSP파라미터에 있어서의 변화도에 따라서 가중을 수행한다. 전체 음성프레임중에서 소수 프레임을 나타내는 V→UV 또는 UV→V로의 과도영역에 있어서, LSP파라미터는 자음과 모음사이의 주파수응답에 있어서의 차이로 인해 확실하게 변한다. 따라서, 수학식 19에 나타낸 가중은 과도영역 상에 강세를 위치시키는 가중을 실행하기 위해 가중(W'(i, t))에 의해 다중화될 수도 있다.
이 수학식(19)대신에 다음의 수학식 20을 사용할 수도 있다.
따라서, LSP양자화부(134)는 2단의 행렬양자화 및 2단의 벡터양자화를 실행하여 출력지수변수의 비트수를 전하게 된다.
벡터양자화부(116)의 기본 구조를 도 7에 나타낸 한편, 도 7에 나타낸 벡터양자화부(116)에 대한 보다 상세한 구조는 도 8에 나타내었다. 이제, 벡터양자화부(116)에서 스펙트럼포락선(Am)에 대한 가중벡터양자화의 도시적인 구조를 설명한다.
우선, 도 3에 나타낸 음성신호 부호화장치에 있어서, 스펙트럼평가부(148)의 출력측 또는 벡터양자화부(116)의 입력측상의 스펙트럼포락선의 일정수의 진폭데이터를 제공하기 위한 데이터수변환의 도시구조를 설명한다.
그러한 데이터수변환에는 여러가지 방법이 고려될 수 있다. 본 실시예에 있어서는, 블록의 최후데이터로부터 블록의 최초데이터까지의 값을 보간처리하는 더미(dummy)데이터 또는 블록내의 최후데이터 또는 최초데이터를 반복하는 데이터 등의 소정의 데이터를 주파수축상의 유효대역의 일 블록의 진폭데이터에 부가하여 데이터수를 NF까지 높이며, Os배(8배)수와 동등한 진폭데이터가 예를들어 옥타튜플 오버샘플링(octatuple oversampling)과 같은 대역제한형 Os-튜플(tuple)에 의해 구해진다. (mMx + 1) ×Os진폭데이터는 2048등의 보다 큰 NM수로 확장을 위해 선형보간된다. 이 NM데이터는 상술한 44데이터 등의 소정수(M)의 데이터로의 변환을 위해 서브샘플처리된다. 실제, 최후로 요구되는 M데이터를 형성하기 위해 필요한 데이터만이 상술한 전체 NM데이터를 구하지 않고도 오버샘플링처리 및 선형보간에 의해 계산된다.
도 7의 가중벡터양자화를 수행하기 위한 벡터양자화부(116)는 적어도 제 1벡터양자화단계를 수행하기 위한 제 1벡터양자화부(500)와, 제 1벡터양자화부(500)에 의한 제 1벡터양자화동안에 생성된 양자화오차벡터를 양자화시키기 위해 제 2벡터양자화단계를 수행하는 제 2벡터양자화부(510)를 포함한다. 이러한 제 1벡터양자화부(500)를 소위 제 1단 벡터양자화부라 하며, 한편 제 2벡터양자화부(510)는 소위제 2단 벡터양자화부라 한다.
스펙트럼 평가부(148)의 출력벡터(x), 즉 소정수(M)를 갖는 포락선데이터는 제 1벡터양자화부(500)의 입력단자(501)로 입력된다. 이 출력벡터(x)는 벡터양자화부(502)에 의해 가중 벡터양자화로 양자화된다. 따라서 벡터양자화부(502)에 의해 출력된 형상지수는 출력단자(503)에서 출력되는 한편, 양자화값(x0')은 출력단자(504)에서 출력되어 가산기(505, 513)로 보내진다. 가산기(505)는 소스벡터(x)에서 양자화값(x 0')을 감산하여 다중차수의 양자화오차벡터(y)를 구한다.
양자화오차벡터(y)는 제 2벡터양자화부(510)내의 벡터양자화부(511)로 보내진다. 이 제 2벡터양자화부(511)는 복수의 벡터양자화부 또는 도 7에 나타낸 두개의 벡터양자화기(5111, 5112)로 이루어진다. 양자화오차벡터(y)는 두개의 벡터양자화기(5111, 5112)에서 가중벡터양자화에 의해 양자화되도록 차원적으로 분할된다. 이들 벡터양자화기(5111, 5112)에 의해 출력된 형상지수는 출력단자(5121, 5122)에서 출력되는 한편, 양자화값(y 1',y 2')은 차원적인 방향으로 접속되어 가산기(513)로 보내진다. 가산기(513)는 양자화값(y 1',y 2')을 양자화값(x 0')에 더하여 양자화값(x 1')을 생성하여 출력단자(514)로 출력한다.
따라서, 제 1벡터양자화부(500)에 의한 제 1벡터양자화단계의 출력은 저속의 비트율로 도출되는 반면, 제 1벡터양자화단계의 출력 및 제 2양자화부(510)에 의한 제 2양자화단계의 출력은 고속의 비트율로 출력된다.
특히, 벡터양자화부(116)내의 제 1벡터양자화부(500)내에 있는 벡터양자화기(502)는 도 8에 나타낸 바와같이 44차수의 2단구조등의 L차수의 것이다.
즉, 이득(gi)으로 다중화된 32의 코드북사이즈를 갖는 44차수의 벡터양자화 코드북의 출력벡터의 합은 44차수의 스펙트럼 포락선벡터(x)의 양자화값(x 0')으로 사용된다. 따라서, 도 8에 나타낸 바와같이, 두개의 코드북은 CB0, CB1인 한편, 출력벡터는s 1i,s 1j(여기서 0 ≤ i이고 j ≤ 31)이다. 한편, 이득코드북(CBg)의 출력은 gl(여기서, 0 ≤ l ≤ 31이고, g1는 스칼라이다)이다. 최종의 출력(x 0')은 g1(s 1i+s 1j)이다.
상기 LPC잔차의 MBE분석에 의해 얻어져서 소정의 차수로 변환되는 스펙트럼포락선은x이다. 이것이x가 효과적으로 양자화되도록 하는 최종의 방법이다.
양자화오차에너지(E)는 다음 로 정의된다.
여기서, H는 LPC합성필터의 주파수축상의 특성을 나타내고, W는 주파수축상에 청각가중을 위한 특성을 나타내는 가중용 행렬이다.
현재프레임의 LPC분석의 결과에 의한α-파라미터가α i(1 ≤ i ≤ P)로 표시되면, L차수의 값, 예를들어 44차수에 대응하는 포인트가 수학식 22의 주파수응답에서 샘플링된다.
계산을 위해, 다수의 0을 1,α 1,α 2, …α p의 열 다음에 채워서 1,α 1,α 2,α p, 0, 0, …, 0의 열을 구하여, 예를들어, 256포인트 데이터를 얻는다. 그런 다음, 256포인트 FFT에 의해, (re 2+ im2)1/2를 0∼π까지의 범위와 연합된 포인트에 대해 계산하여, 그 결과의 역을 구한다. 이러한 역을 44포인트 등의 L포인트로 서브샘플처리하여, 대각선의 원소로서 이러한 L포인트를 갖는 행렬을 형성한다.
청각가중행렬(W)는 수학식 23으로 주어진다.
여기서,α i는 LPC분석의 결과이며,λa,λb는 상수로써λa = 0.4이고λb = 0.9이다.
행렬(W)은 상기 수학식 23의 주파수응답으로부터 계산될 수도 있다. 예를들어, 1,α1λb,α2λ1b2, …αpλbp, 0, 0,…, 0의 256포인트 데이터에 대해 FFT를 수행하여, 0에서 π까지의 영역에 대해 (re 2[i] + Im2[i])1/2(여기서 0 ≤ i ≤ 128)를 얻는다.
수학식 23의 주파수응답은
벡터의 연합포인트마다 다음 방법으로 구한다. 보다 명확히 말하면, 선형보간이 사용될 수 있다. 그렇지만, 다음 예에 있어서, 가장 근접한 포인트를 대신 사용한다.
즉,
ω[i] =ω0[nint{128i/L}], 여기서 1 ≤ i ≤ L.
수학식 nint(X)는 값을 X로 근접시키는 함수이다.
H, h(1), h(2), …h(L)에 대해서도 동일한 방법을 이용해 구한다.
즉,
또 다른 예로써, H(z)W(z)를 우선 구한 다음 주파수응답을 구하여 FFT의 회수를 감소시킨다. 즉 수학식 25의 분모는
로 확장된다.
예를 들어, 256포인트 데이터를 1,β 1,β 2, …,β 2P, 0, 0, …, 0의 열을 사용하여 생성한다. 그런 다음, 256포인트 FFT를 진폭의 주파수응답이
(여기서, 0 ≤ i ≤ 128)
되는 상태로 수행한다. 이로부터,
(여기서 0 ≤ i ≤ 128) 이것은 L차원벡터의 각각의 상응하는 포인트에 대해 구해진다. 만일 FFT의 포인트의 수가 작은 경우에는, 선형보간이 사용될 수 있다. 그렇지만 근사치는 여기서,
구해지며, 여기서 1 ≤ i ≤ L이다. 이러한 대각원소를 갖는 행렬은 W'이다.
수학식 26은 수학식 24와 동일한 행렬을 나타낸다.
선택적으로,|H(exp(jω))W(exp(jω))|는 wh[i]로 사용되기 위해 ω = iπ에 대해 수학식 25에서 직접 구해진다. 수학식(25)의 임펄스응답의 40포인트 등의 적절한 길이를 구하고 FFT처리하여서 이용되는 진폭의 주파수응답을 구한다.
청각가중필터의 계산특성과 LPC합성필터의 계산특성에 있어서의 처리량을 감소시키는 방법을 설명한다.
0≤n<Limp일때, q(n)으로 설정되는 임펄스응답(Q(z))을 구하기 위해서 수학식(25)에서 H(z)W(z)는 Q(z)이며, 즉, 다음과 같으며, 여기서 Limp는 임펄스응답길이이며, 예로 Limp=40이다.
[수학식 a1]
본 실시예에 있어서, P=10이므로, 방정식(a1)은 30개의 계수를 갖는 20차수의 무한임펄스응답(IIR)을 나타낸다. 대략 Limp×3P=1200의 곱연산의 합에 의해서, 수학식(a1)의 임펄스응답의 Limp샘플을 구할 수도 있다. 다수의 0을 q(n)에 채워넣음으로써, 0≤n<2m일 경우, q'(n)이 구해진다, 만일 예를들어 m=7이면, 2m-Limp=128-40=88개의 0이 q(n)에 첨부(0 스터핑(stuffing))되어서 q'(n)을 제공한다.
이 q'(n)은 2m(=128포인트)에서 FFT된다. FFT결과의 실수부와 허수부는 각각 re[i] 와 im[i]이며, 여기서 0≤i≤2m-1이다. 이로부터 다음을 얻는다.
[수학식 a2]
이는 2m-1포인트로 표시되는 Q(z)의 진폭주파수응답이다. rm[i]의 이웃하는 값의 선형보간처리를 함으로써, 주파수응답은 2m으로 표시된다. 선형보간 대신에 보다 높은 차수의 보간처리를 이용할 수도 있지만, 처리량은 그에 대응하여 증가하게 될 것이다. 만일 그러한 보간처리에 의해 얻어진 배열이 wlpc[i](0≤i≤2m)이라면,
[수학식 a3]
wplpc[2i]=rm[i], (0≤i≤2m-1)이며,
[수학식 a4]
wlpc[2i+1]=(rm[i]+rm[i+1]/2, (0≤i≤2m-1이다.
이것은 wlpc[i] (0≤i≤2m-1)을 제공한다.
이로부터 wh[i]가 다음의 수학식 a5에 의해 구해질 수 있다.
[수학식 a5]
wh[i]=wlpc[nint(128i/L)], (1≤i≤ )
여기서 nint(x)는 x에 가장 근접하는 정수를 도출하는 함수이다. 그것은 하나의 128포인트 FFT계산을 수행함으로써 수학식 26의 W'가 구해질 수도 있음을 나타낸다.
N포인트 FFT에 요구되는 처리량은, 일반적으로 (N/2)log2N×4실수 곱 및Nlog2N×2실수 합과 동등한 (N/2)log2N 복소수 곱과 Nlog2N×2실수 합이다.
그러한 방법에 의해서, 상기 임펄스응답(q(n))을 구하기 위한 곱연산의 합의 양은 1200이다. 반면, N=27=128에 대한 FFT의 처리량은 거의 128/2×7×4=1792 및 128×7×2=1792이다. 만일 곱의 합의 수가 1이라면, 처리량은 대략 1792이다. 수학식(a2)의 처리에 대해서, 처리량이 대략 3인 제곱합자공과, 처리량이 대략 50인 제곱근연산을 2m-1=26=64회 수행함으로써, 수학식(a2)에 대한 처리량은 64×(3+50)=3392이다.
반면, 수학식(a4)의 보간처리는 64×2=128의 차수에 대한 것이다.
따라서, 총 합에 있어서, 처리량은 1200+1792+3392=128=6512이다.
가중치행렬(W)이 W'TW의 패턴에 이용되기 때문에, 제곱근처리를 수행하지 않고도 단지 rm2[i]가 구해지고 이용된다. 이 경우에, rm[i]대신 rm2{i]에 대하여 상기 수학식 a3 및 수학식 a4이 수행되는 반면, wh[i]가 아닌 wh2[i]는 상기 수학식 a5에 의해서 구해진다. 이 경우에 rm2[i]를 구하기 위한 처리량은 192이며, 처리량의 총합은 1200+1792+192+128=3312와 같다.
수학식 25 및 수학식(26)까지의 처리를 직접 수행한다면, 처리량의 총합은 대략 2160의 차수로 된다. 즉, 256포인트 FFT는 수학식 25의 분자 및 분모 모두에 대하여 수행된다. 256포인트 FFT는 256/2×8×4=4096의 차수로 된다. 반면, wh0[i]에 대한 처리는, 각각 3의 처리량을 갖는 2개의 제곱합연산과, 대략 25의 처리량을 갖는 나누기연산과, 대략 50의 처리량을 갖는 제곱합연산을 수반한다. 제곱근계산은 상기 설명과 같은 식으로 생략되며, 처리량은 128×(3+3+25)=3968의 차수로 된다. 따라서, 처리량의 총합은 4096×2+3968=12160과 같다.
따라서, 만일 상기 수학식 25을 직접계산하여 wh0[i]대신에 wh02[i]를 구한다면, 12160차수의 처리량이 필요하며, 반면, 수학식 a1 내지 수학식 a5의 계산을 수행한다면, 처리량은 대략 3312로 감소되며, 이것은 처리량이 1/4로 감소될 수 있음을 나타낸다. 감소된 처리량을 갖는 무게계산처리는 도 9의 플로우차트에 도시된 바와같이 요약될 수 있다.
도 9를 참고하면, 제 1스텝(S91)에서는 무게전달함수의 상기 수학식 a1이 유도되며, 다음스텝(S92)에서는 수학식 a1의 임펄스응답이 유도된다. 스텝(S93)에서 이 임펄스응답에 1첨부(0 스터핑(stuffing))를 수행한 후에, 스텝(S94)에서 FFT가 수행된다. 만일 2의 거듭제곱과 같은 길이의 임펄스응답이 유도된다면, 0스터핑 없이 직접 FFT를 실행할 수도 있다. 다음 스텝(S95)에서, 진폭의 주파수특성이나 진폭의 제곱을 구한다. 다음 스텝(S96)에서, 주파수특성의 포인트수를 증가시키기 위해서 선형보간처리를 실행한다.
가중벡터양자화를 구하기 위한 이들 계산은 음성부호화에만 적용되는 것이 아니고 오디오신호와 같은 가청신호의 부호화에도 적용도리 수 있다. 즉, 음성 및 오디오신호가 주파수영역 파라미터로써 DFT계수, DCT계수나 MDCT계수 또는 고조파의 진폭이나 LPC잔차의 고조파의 진폭과 같이 이들 파라미터로부터 유도된 파라미터에 의해 표현되는 가청신호부호화에 있어서, 그 파라미터는 무게전달함수의 임펄스응답이나 또는 중도에서 중단되고 0이 스터프된 임펄스응답을 FFT처리하고, 그 FFT의 결과에 기초하여 무게를 계산함으로써 가중벡터양자화에 의해 양자화될 수 있다. 이 경우에는, 무게임펄스응답을 FFT한 후에, re 및 im이 각각 계수의 실수부와 허수부를 나타내는 경우, FFT계수들, 즉 (re, im)자체, re2+im2, 또는 (re2+im2)1/2가 보간되고 가중치로써 이용되는 것이 바람직하다.
상기 수학식 26의 행렬(W')을 이용하여 수학식 21을 다시 쓴다면, 그것은 가중합성필터의 주파수응답이며, 그것은 다음과 같이 구해진다.
E=∥Wk'(x-gk(s 0c+s lk))∥2
형상코드북과 이득코드북을 학습하는 방법을 설명한다.
왜곡의 기대값은 코드벡터S 0C가 CB0에 대해 선택되는 모든 프레임(k)에 대해 최소화된다. 만일 그러한 프레임이 M개 존재한다면 다음의 수학식 28이 최소화된다면 충분하다.
수학식 28에서, Wk', Xk, gk및 sik는 각각 k'번째 프레임의 가중, k'번째 프레임의 입력, k'번째 프레임의 이득 및 k'번째 프레임용 코드북(CB1)의 출력을 나타낸다.
수학식 28을 최소화하기 위해서,
이다. 그러므로,
이며, 그 결과,
이며, 여기서 ( )는 역행렬을 나타내며, Wk'T는 Wk'의 이항된 행렬을 나타낸다.
이하에는, 이득최적화에 대해 고려한다.
이득의 코드어(gc)를 선택하는 k'번째 프레임에 대한 왜곡의 기대값은 다음식에 의해 구해진다.
그것을 풀이하면,
이며, 따라서 다음식을 얻는다.
상기 수학식 31 및 수학식 32는 0≤i≤31, 0≤j≤31 및 0≤l≤31에 대하여형상(s 0i,s 1i) 및 이득(gl)에 대한 최적의 중심조건을 제공하며, 그것은 최적의 디코더출력이다. 한편,s 1is 0i에 대해서와 동일한 방식으로 구할 수 있다.
최적의 부호화조건 즉 가장 근접하는 조건을 고려한다.
수학식 E= ∥W'(X-g1(s 1i+s 1j))∥를 최소화하는s ois 1i인 왜곡측정을 구하기 위한 상기 수학식 27은 입력(x)과 가중행렬(W')이 주어질 때마다, 즉 한 프레임씩 차례로 구해진다.
E는 본래 gl(0≤l≤31),s 0i(0≤i≤31) 및s 0j(0≤j≤31)의 모든 조합, 즉, 32×32×32=32768에 대해 라운드로빈(round robin)식으로 구해져서, E의 최소값을 제공하게 될s 0i,s 1i의 세트를 구하게 된다. 그러나, 이것은 방대한 연산을 요구하므로, 본 실시예에서 형상 및 이득은 계속적으로 탐색된다. 한편,s 0is 1i의 조합에 대하여 라운드로빈탐색이 이용된다.s 0is 1i에 대하여 32×32=1024번의 조합이 있다. 다음의 설명에서는, 간략화를 위해서s 0i+s 1is m으로 표시한다.
상기 수학식 27은 E= ∥W'(x-g1sm∥2가 된다. 만일 더욱 간략화하기 위해서x w=W'x 및s W=W's m이라면, 다음의 수학식 33 및 34를 얻는다.
E= ∥x W-g1s W2
그러므로, gl을 충분히 정확하게 할 수 있으면, 탐색은 다음의 2스텝으로 수행될 수 있다.
(1) 다음식을 최대화하게 될s w에 대한 탐색
(2) 다음식에 가장근접하는 gl에 대한 탐색
본래의 표기법을 이용하여 상기 식을 다시 쓰면, 다음과 같다.
(1)' 다음식을 최대화할s 0i+s li의 세트에 대한 탐색
(2)' 다음식에 가장근접한 gl에 대한 탐색
상기 수학식 35는 최적의 부호화조건(가장 근접한 조건)을 나타낸다.
수학식 31 및 32의 조건(중심조건)과 수학식 35의 조건을 이용하여, 코드북(CB0, CBl, CBg)을 소위 일반화된 로이드 알고리듬(GLA)으로 동시에 연습한다.
본 실시예에 있어서, 입력(x)의 놈(norm)에 의해 나누어진 W'는 W'로써 사용된다. 즉, W'/∥x∥는 수학식 31, 32 및 35에서 W'대신 치환된다.
선택적으로, 벡터양자화기(116)에 의한 벡터양자화시에 청각가중용으로 사용된 가중(W')은 상기 수학식 26에 의해 정의된다. 그렇지만, 일시적인 마스킹(masking)을 고려하는 가중(W')도, 지난 W'가 이미 고려된 현재 가중(W')을 구함으로써 구해질 수 있다.
시간(n)에서, 즉 n번째 프레임에서 구해진 상기 수학식 26에서 wh(1), wh(2), …, wh(L)의 값은 각각 whn(1), whn(2), …, whn(L)로 표시된다.
과거값을 고려하는 시간(n)에의 무게를 An(i)로 정의하면, 1 ≤ i ≤ L일때,
여기서,λ는 예를들어λ= 0.2로 설정될 수 있다. An(i)에서는, 1 ≤ i ≤L로, 그렇게 구해진, 대각원소로써 그러한 An(i)를 갖는 행렬이 상기 가중으로써 사용될 수 있다.
이와 같은 식으로 가중벡터양자화에 의해 얻어진 형상지수값(s 0i,s 1i)은 출력단자(520, 522)로 각각 출력되는 한편, 이득지수(gl)는 출력단자(521)에서 출력된다. 또한, 양자화값(x 0')은 출력단자(504)에서 출력되는 동시에 가산기(505)로 보내진다.
가산기(505)는 스펙트럼포락선벡터(x)에서 양자화값을 감산하여 양자화오차벡터(y)를 생성한다. 특히, 이러한 양자화오차벡터(y)는 벡터양자화부(511)로 보내져서 차원적으로 분할되게 되어 가중벡터양자화로 벡터양자화기(5111∼5118)에 의해 양자화된다.
제 2벡터양자화부(510)는 제 1벡터양자화부(500)보다 큰수의 비트수를 사용한다. 결과적으로, 코드북의 메모리용량 및 코드북탐색에 대한 처리량(복잡성)도 굉장히 증가된다. 따라서, 제 1벡터양자화부(500)의 차수와 동일한 44차수를 갖는 벡터양자화를 수행할 수 있게 된다. 따라서, 제 2벡터양자화부(510)내의 벡터양자화부(511)는 복수의 벡터양자화기로 이루어지며, 그 입력양자화값은 복수의 저차원의 벡터로 차원적으로 분할되어 가중벡터양자화를 수행하게 된다.
벡터양자화기(5111∼5118)에서 사용된 양자화값(y 0y 7), 차원수 및 비트수사이의 관계를 다음의 표 1에 나타내었다.
벡터양자화기(5111∼5118)에서 출력된 지수값(Idvq0∼Idvq7)은 출력단자(5231∼5238)에서 출력된다. 이러한 지수데이터의 비트합은 72이다.
차원방향으로의 벡터양자화기(5111∼5118)의 출력양자화값(y 0',y 7')을 접속함으로써 얻어진 값이y'이면, 양자화값(y',x0')은 가산기(513)에 의해 합산되어 양자화값(x 1')을 제공한다. 따라서, 양자화값(x 1')은 다음과 같이 표시된다.
즉, 최종적인 양자화오차벡터는y' -y'이다.
제 2벡터양자화기(510)로부터 양자화값(x 1')이 복호화되게 되면, 음성신호복호화장치는 제 1양자화부(500)로부터의 양자화값(x 1')에 있어 필요치 않다. 그렇지만, 제 1양자화부(500) 및 제 2양자화부(510)로부터의 지수데이터에 있어서는 필요하다.
벡터양자화부(511)에서의 학습방법 및 코드북탐색을 이하 설명한다.
학습방법에 대해서, 양자화오차벡터(y)는 표 2에 나타낸 바와같이, 무게(W')를 사용하여, 8개의 저차원벡터(y 0∼ y 7)로 분할된다. 무게(W')가 다음의 수학식 36과 같이 대각원소로서 44포인트의 서브샘플처리된 값을 갖는 행렬인 경우,
무게(W')는 다음의 8개 행렬로 분할된다.
저차원으로 분할된y와 W'는 Yi와 Wi'(여기서 1 ≤ i ≤ 8)로 각각 명명된다.
왜곡측정(E)은 다음 수학식 37로 정의된다.
E = ∥Wi'(y i-s)∥2
코드북벡터(s)는y i의 양자화의 결과이다. 왜곡측정(E)을 최소화하는 코드북의 그러한 코드벡터가 탐색된다.
코드북학습에 있어서는, 범용의 로이드 알고리듬(GLA)을 이용해 가중이 더 행해진다. 학습에 대한 최적의 중심조건을 먼저 설명한다. 최적의 양자화결과로서 코드벡터(s)를 선택하고 있는 M입력벡터(y)가 존재하고, 연습데이터가y k인 경우, 왜곡의 기대치(J)는 전체 프레임(k)에 대해 가중시에 왜곡의 중심을 최소화하는 다음의 수학식 38에 의해 주어진다.
그후,
상기 식을 풀이하면, 다음식을 얻는다.
양측의 이항값을 취하면 다음식을 얻게 된다.
을 얻는다. 따라서, 수학식 39와 같이 된다.
상기 수학식 39에서,s는 최적의 대표벡터이며, 최적의 중심조건을 나타낸다.
최적의 부호화조건에 대해서는, 이것은 ∥Wi'(yi -s)∥2의 값을 최소화하는s를 탐색하기에 충분하다. 탐색동안의 Wi'는 학습동안의 Wi'와 똑같을 필요는 없으며, 비가중행렬이 될 수도 있다.
2단의 벡터양자화부를 이용해 음성신호엔코더 내에 벡터양자화부(116)를 구성함으로써, 다양한 출력지수비트의 수를 표현할 수 있게 된다.
본 발명의 상술한 CELP엔코더구조를 이용하는 제 2부호화부(120)는 도 9에 나타낸 바와같이 다단의 벡터양자화 프로세서로 구성된다. 도 9의 실시예에서는, 이러한 다단의 벡터양자화 프로세서가 2단의 부호화부(1201, 1202)로 구성되며, 여기서 송신비트율이 2kbps와 6kbps와의 사이로 절환될 수 있는 경우에 6kbps의 송신비트율을 수습하기 위한 구조를 나타내고 있다. 또한, 형상 및 이득지수출력은 23비트/5msec 및 15비트/ 5msec사이로 절환될 수 있다. 도 10의 구조에 있어서의 처리흐름을 도 1에 나타내었다.
도 10를 참고하면, 도 10의 제 1부호화부(300)는 도 3의 제 1부호화부(113)와 동일하며, 도 10의 LPC분석회로(302)는 도 3에 나타낸 LPC분석회로(132)에 상응하는 한편, LSP파라미터 양자화회로(303)는 도 3의α→LSP변환회로(133)에서 LSP→α변환회로(137)까지의 구성에 대응하며, 도 10의 청각가중필터(304)는 도 3의 청각가중필터계산회로(139)와 청각가중필터(125)에 상응한다. 따라서, 도 10에 있어서, 도 3의 제 1부호화부(113)의 LSP→α변환회로(137)의 출력과 동일한 출력이 단자(305)로 인가되는 한편, 도 3의 청각가중필터계산회로(139)의 출력과 동일한 출력이 단자(307)로 인가되며, 도 3의 청각가중필터(125)의 출력과 동일한 출력이 단자(306)로 인가된다. 그렇지만, 청각가중필터(125)로부터의 판별에 있어서, 도 10의 청각가중필터(304)는 LSP→α변환회로(137)의 출력을 이용하는 대신에, 입력음성데이터와 예양자화α-파라미터를 이용하여, 청각가중신호 즉, 도 3의 청각가중필터(125)의 출력과 동일한 신호를 생성한다.
도 10에 나타낸 2단의 제 2부호화부(1201, 1202)에 있어서, 감산기(313, 323)는 도 3의 감산기(123)와 대응하는 한편, 거리계산회로(314, 324)는 도 3의 거리계산회로(124)와 대응한다. 또한, 이득회로(311, 321)는 도 3의 이득회로(126)에 대응하는 한편, 확률적 코드북(310, 320) 및 이득 코드북(315, 325)은 도 3의 잡음코드북(121)에 대응한다.
도 10의 구성에 있어서, 도 10의 스텝(S1)에서 LPC분석회로(302)는 단자(301)로부터 인가된 입력음성데이터(x)를 상술한 바와같이 다수의 프레임으로 분할하여α-파라미터를 구하기 위해 LPC분석을 수행하게 된다. LSP파라미터 양자화회로(303)는 LPC분석회로(302)로부터의α-파라미터를 LSP파라미터로 변환하여 LSP파라미터를 양자화시킨다. 양자화된 LSP파라미터는 보간되어서α-파라미터로 변환된다. LSP파라미터 양자화회로(303)는 양자화된 LSP파라미터에서 변환된α-파라미터 즉, 양자화된 LSP파라미터로부터 LPC합성필터함수(1/H(z))를 생성하며, 생성된 LPC분석필터함수(1/H(z))를 단자(305)를 거쳐서 제 1단의 제 2부호화부(1201)의 청각가중합성필터(312)로 보낸다.
청각가중필터(304)는 도 3의 청각가중필터 계산회로(139)에 의해 생성된 데이터와 동일한 청각가중용 데이터를 LPC분석회로(302)로부터의α-파라미터 즉, 예양자화α-파라미터로부터 구한다. 이러한 가중데이터는 단자(307)를 거쳐서 제 1단의 제 2부호화부(1201)의 청각가중합성필터(312)로 인가된다. 청각가중필터(304)는 도 3의 청각가중필터(125)에 의해 출력된 것과 동일한 신호인 청각가중신호를, 도 10의 스텝(S2)에 나타낸 바와같이, 입력음성데이터와 예양자화α-파라미터로부터 생성한다. 즉, 우선 LPC합성필터함수(W(z))를 예양자화α-파라미터로부터 생성한다. 그렇게 생성된 필터함수(W(z))를 입력음성데이터(x)에 가해서, 청각가중신호로써 단자(306)를 통해서 제 1단의 제 2부호화부(1201)의 감산기(313)에 인가되는xw를 생성한다. 제 1단의 제 2부호화부(1201)에 있어서, 9비트의 형상지수출력의 확률적 코드북(310)의 대표값출력은 이득회로(311)로 보내지며, 그후 확률적 코드북(310)으로부터의 대표값출력을 6비트의 이득지수출력의 이득 코드북(315)으로부터의 이득(스칼라)과 승산한다. 이득회로(311)에 의해 이득과 승산된 대표값출력은 1/A(z) = (1/H(z))*W(z)를 갖는 청각가중합성필터(312)로 보내진다. 도 11의 스텝(S3)에서 나타낸 바와같이, 가중합성필터(312)는 1/A(z)의 제로입력 응답출력을 감산기(313)로 보낸다. 감산기(313)는 청각가중합성필터(312)의 제로입력 응답출력과 청각가중필터(304)로부터의 청각가중신호(xw)에 대해 감산을 행하며, 그 결과의 차 또는 오차는 기준벡터(r)로써 도출된다. 제 1단의 제 2부호화부(1201)에서의 탐색 동안, 도 11의 스텝(S4)에 나타낸 바와같이, 기준벡터(r)가 거리계산회로(314)로 보내지며, 여기서 거리가 계산되고 양자화오차에너지(E)를 최소화하는 형상벡터(s) 및 이득(g)이 탐색된다. 여기서, 1/A(Z)는 제로상태에 있게 된다. 즉, 제로상태의 1/A(Z)로 합성된 코드북 내의 형상벡터(s)가s syn인 경우에는, 다음의 수학식 40을 최소화하는 형상벡터(s) 및 이득(g)이 탐색된다.
비록 양자화오차에너지(E)를 최소화하는s및 g가 완전히 탐색될 수 있더라도, 계산량을 감소시키기 위해 다음의 방법을 사용할 수도 있다.
제 1방법은 E를 최소화하는 형상벡터(s)를 탐색하는 방법으로써, 다음의 수학식 41에 정의되어 있다.
제 1방법에 의해 구해진s로부터의, 이상적인 이득은 수학식 42에 나타낸 바와 같다.
따라서, 제 2방법으로써는, 다음 수학식 43을 최소화하는 g가 탐색된다.
Eg = (gref- g)2
E는 g의 2차함수이기 때문에, Eg를 최소화하는 그러한 g는 E를 최소화한다.
제 1 및 제 2방법에 의해 얻어진s및 g로부터, 양자화오차벡터(e)는 다음 수학식 44에 의해 계산될 수 있다.
e=r- gs syn
이것은 제 1단에서와 같이 제 2단의 제 2부호화부(1202)의 기준으로써 양자화된다.
즉, 단자(305, 307)로 인가된 신호는 제 1단의 제 2부호화부(1201)의 청각가중합성필터(312)로부터 제 2단의 제 2부호화부(1202)의 청각가중합성필터(322)로 곧바로 인가된다. 제 1단의 제 2부호화부(1201)에 의해 구해진 양자화오차벡터(e)는 제 2단의 제 2부호화부(1202)의 감산기(323)로 인가된다.
도 11의 스텝(S5)에서, 제 1단에서 수행된 처리와 동일한 처리가 제 2단의 제 2부호화부(1202)에서 발생하여 수행된다. 즉, 5비트의 형상지수출력의 확률적 코드북(320)으로부터의 대표값출력은 이득회로(321)로 보내지며, 여기서 코드북(320)의 대표값출력이 3비트의 이득지수출력의 이득코드북(325)으로부터의 이득과 승산된다. 가중합성필터(322)의 출력은 감산기(323)로 보내지고, 여기서 청각가중합성필터(322)의 출력과 제 1단의 양자화오차벡터(e)간의 차가 구해진다. 이러한 차는 거리계산을 위한 거리계산회로(324)로 보내져서 양자화오차에너지(E)를 최소화하는 형상벡터(s) 및 이득(g)을 탐색하게 된다.
제 1단의 제 2부호화부(1201)의 확률적 코드북(310)의 형상지수출력과 이득코드북(315)의 이득지수출력과, 제 2단의 제 2부호화부(1202)의 확률적 코드북(320)의 지수출력과 이득코드북(325)의 지수출력은 지수출력 절환회로(330)로 보내진다. 제 2의 부호화부(120)로부터 23비트가 출력되면, 제 1단 및 제 2단의 제 2부호화부(1201, 1202)의 확률적 코드북(310, 320)과 이득코드북(315, 325)의 지수데이터가 합해져서 출력된다. 15비트가 출력되면, 제 1단의 제 2부호화부(1201)의 확률적 코드북(310)과 이득코드북(315)의 지수데이터가 출력된다.
이어서, 스텝(S6)에 나타낸 바와같이, 제로입력 응답출력을 계산하기 위해서 필터상태를 업데이트한다.
본 실시예에 있어서, 제 2단의 제 2부호화부(1202)의 지수비트수는 형상벡터에 대해서는 5만큼 작은 한편, 이득에 대해서는 3만큼 작다. 이 경우, 코드북에 적절한 형상과 이득이 존재하지 않으면, 양자화오차가 감소되는 대신 증가되기 쉽다.
그러한 문제점이 발생되는 것을 방지하기 위해 0을 이득에 부여할 수도 있지만, 이득용으로는 3개의 비트만이 있다. 그중 하나가 0으로 설정되면, 양자화성능을 굉장히 악화시킨다. 이러한 것을 고려하여, 모든 0벡터는 보다 큰 비트수가 할당되어 있는 형상벡터용으로 부여된다. 상술한 탐색은 모든 제로벡터를 배제하고 수행되며, 모든 제로벡터는 양자화오차가 최종으로 증가되어 있다면 선택된다. 이득은 임의 상수이다. 이것은 제 2단의 제 2부호화부(1202)에서 양자화오차가 증가되는 것을 방지하는 것을 가능하게 해준다.
비록 2단의 구조가 상기와 같이 설명되었지만, 그러한 단수는 2보다 클 수도 있다. 그러한 경우, 제 1단의 폐루프탐색에 의한 벡터양자화가 가까워지게 되면, N번째 단(여기서 2≤N)의 양자화는 기준입력으로써 (N-1)번째 단의 양자화오차로 수행되게 되며, N번째 단의 양자화오차는 (N+1)번째 단에 대한 기준입력으로써 사용된다.
도 10와 도 11으로부터는 제 2부호화부에 대해 다단의 벡터양자화기를 이용함으로써, 그 계산량을 동일수의 비트수를 갖는 직벡터양자화의 사용 또는 한쌍의 코드북의 사용에 있어서의 계산량과 비교하여 보다 감소할 수 있다. 특히, 분석/합성방법에 의한 폐루프탐색을 이용하여 시간축파형의 벡터양자화를 행하는 CELP부호화에 있어서, 보다 적은 탐색동작회수는 굉장히 중요하다. 또한, 그러한 비트수는, 2단의 제 2부호화부(1201, 1202)의 지수출력 모두를 이용하는 것과, 제 2단의 제 2부호화부(1202)의 출력은 이용하지 않고 제 1단의 제 2부호화부(1201)의 출력만을 이용하는 것과의 사이에서 절환함으로써 손쉽게 절환할 수 있다. 제 1단 및 제 2단의 제 2부호화부(1201, 1202)의 지수출력이 합쳐져서 출력되는 경우에는, 디코더는지수출력중 하나를 선택함으로써 그러한 구조를 손쉽게 수습할 수 있다. 즉, 디코더는, 2kbps에서 동작하는 디코더를 이용하여 예를들어 6kbps로 부호화된 파라미터를 복호화함으로써 그러한 구조를 손쉽게 수습할 수 있다. 또한, 제로벡터가 제 2단의 제 2부호화부(1202)의 형상코드북에 포함되는 경우에는, 0이 이득에 가해지는 경우보다 그 성능에 있어 보다 덜 악화되도록 양자화오차가 증가되는 것을 방지할 수 있게 된다.
확률적 코드북의 코드벡터(형상벡터)는 예를들어 이하의 방법에 의해 생성될 수 있다.
예를들어, 확률적 코드북의 코드벡터는 소위 가우스잡음을 클립핑(clipping)함으로써 생성될 수 있다. 특히, 코드북은 가우스잡음을 생성하고, 적당한 임계값으로 가우스잡음을 클립핑하고, 클립핑된 가우스잡음을 정규화함으로써, 생성될 수도 있다.
그렇지만, 음성에는 다양한 형태가 있다. 예를들어, 가우스잡음은 "사, 시, 수, 세, 소"등의 잡음에 가까운 자음사운드의 음성을 수습할 수 있는 한편, 그러한 가우스잡음은 "파, 피, 푸, 페, 포"등의 급격히 상승하는 자음의 음성은 수습할 수 없다.
본 발명에 따르면, 가우스잡음이 몇몇의 코드벡터에 가해지게 되는 한편, 코드벡터의 나머지부분은 학습에 의해 처리되며, 그 결과, 급격히 상승하는 자음사운드와 잡음에 가까운 자음사운드를 갖는 두가지 자음 모두를 수습할 수 있게 된다.예를들어, 임계값이 증가하게 되면, 몇몇 큰 피크를 갖는 그러한 벡터가 얻어지는 반면, 임계값이 감소되면, 코드벡터는 가우스잡음에 근접하게 된다. 따라서, 클립핑 임계값에 있어서의 변동을 증가시킴으로써, "파, 피, 푸, 페, 포"등과 같이 급격한 상승하는 부분을 갖는 자음 또는 "사, 시, 수, 세, 소"등과 같이 잡음에 가까운 자음을 수습할 수 있게 됨으로써, 명확성을 증가시키게 된다. 도 12는 가우스잡음 및 클립핑된 잡음의 출현을 각각 실선 및 점선으로 나타내고 있다. 도 12a는 1.0과 동일한 클립핑 임계값 즉, 보다 큰 임계값을 갖는 잡음을 나타내며, 도 12b는 0.4와 동일한 클립핑 임계값 즉, 보다 작은 임계값을 갖는 잡음을 나타내고 있다. 도 12a 및 도 12b로부터는 임계값이 크게 선택될 경우에는 몇몇 큰 피크를 갖는 벡터가 얻어지는 한편, 임계값이 작은 값으로 선택되는 경우에는 잡음은 가우스잡음 자체에 접근한다.
이를 실현하기 위해서, 초기의 코드북은 가우스잡음을 클립핑함으로써 준비되며, 적당한 수의 비학습코드벡터가 설정된다. 비학습코드벡터는 "사, 시, 수, 세, 소"등의 잡음에 가까운 자음을 수습하기 위해 증가하는 증가변동값의 차수로 선택된다. 학습에 의해 구해진 벡터는 학습용 LBG알고리듬을 사용한다. 가장 근접한 조건에서의 부호화는 고정된 코드벡터와 학습시에 얻어지는 코드벡터를 모두 사용한다. 중심조건에서는, 학습될 코드벡터만이 업데이트된다. 따라서, 학습될 코드벡터는 "파, 피, 푸, 페, 포"등과 같이 급격히 상승하는 자음들을 수습할 수 있다.
최적의 이득은 통상의 학습에 의해 이러한 코드벡터에 대해 학습될 수 있다.
도 13는 가우스잡음을 클립핑하여 코드북을 구성하기 위한 처리흐름을 나타낸다.
도 13에 있어서, 초기화를 위한 스텝(S10)에서는 학습의 회수(n)를 n = 0으로 설정한다. 오차(D0) = ∞로 하고, 학습의 최대회수(nmax)이 설정되며, 학습종료조건을 설정하는 임계값(∈)이 설정된다.
다음 스텝(S11)에서는, 가우스잡음을 클립핑하여 초기의 코드북을 생성한다. 스텝(S12)에서는 코드벡터의 일부를 비학습코드벡터로 고정한다. 다음의 스텝(S13)에서는, 상기 코드북을 읊조려서 부호화를 행한다. 스텝(S14)에서는, 오차를 계산한다. 스텝(S15)에서는, (Dn-1- Dn) / Dn<∈, 혹은 n = nmax인지를 판별한다. 그 결과가 "예"이면, 처리는 종료된다. 그 결과가 "아니오"이면, 처리는 스텝(S16)으로 이동한다.
스텝(S16)에서는, 부호화에 사용되지 않은 코드벡터를 처리한다. 다음 스텝(S17)에서는, 코드북을 업데이트한다. 스텝(S18)에서는, 학습의 회수(n)를 스텝(S13)으로 되돌리기 전에 증분시킨다.
도 3의 음성엔코더에 있어서, 유성음/무성음(V/UV) 판별부(115)의 구체적인 예는 이하에 설명한다.
V/UV판별부(115)는 직교변환회로(145)로부터의 출력과, 고정밀도 음조탐색부(146)로부터의 최적 음조와, 스펙트럼평가부(148)로부터의 스펙트럼진폭데이터와, 개루프 음조탐색부(141)로부터의 최대 정규화 자기상관값(r(p))과, 제로크로싱카운터(412)로부터의 제로크로싱카운트값과에 기초하여 대상 프레임의 V/UV판별을 수행한다. MBE에 이용되는 것과 유사하게, V/UV별의 기저대역 결과의 경계위치도 대상 프레임에 대한 조건들 중 하나로써 이용된다.
기저대역 V/UV판별의 결과를 이용하는 MBE에 대한 V/UV판별의 조건을 이하에 설명한다.
MBE의 경우에 m번째 고조파의 양을 나타내는 파라미터나 진폭|Am|은 다음과 같이 표현될 수도 있다.
이 식에서, |S(j)|는 LPC잔차를 DFT할때 얻어진 스펙트럼이며, |E(j)|는 기본신호, 구체적으로 256포인트 해밍윈도우(Hamming window)의 스펙트럼이며, 한편 am및 bm은 각각 m번째 고조파에 교대로 상응하는 m번째 대역에 상응하는 주파수의 하한값 및 상한값으로써 지수(j)로 표현된다. 기저대역의 V/UV판별을 위해서, 잡음 대 신호비(NSR)가 이용된다. m번째대역의 NSR은 다음과 같이 표현된다.
만일 NSR값이 0.3과 같이 리셋(re-set)된 임계값보다 크다면, 즉 오차가 더 크다면, 대상 대역내에서 |Am||E(j)|에 의한 |S(j)|의 접근은 양호하지 않다고, 즉 여기신호|E(j)|가 베이스(base)로써 적합하지 않다고 판별될 수도 있다. 그러한 대상 대역은 무성음(UV)이 된다고 판별된다. 그렇지않고, 접근이 상당히 잘 행해졌다고 판단된다면 유성음(V)이 된다고 판별된다.
각 대역(고조파)의 NSR이 하나의 고조파로부터 다른 고조파로의 다수 고조파의 유사도를 나타낸다. NSR의 이득가중고조파의 합계는 다음의 식에 나타난 NSRall로써 정의된다.
NSRall=(∑m|Am|NSRm)/(∑m|Am|)
V/UV판별에 이용되는 룰베이스(rule base)는 이 스펙트럼 유사도(NSRall)가 특정 임계값보다 큰지 또는 작은지에 따라서 결정된다. 여기서 이 임계값은 ThNSR=0.3로 설정된다. 이 룰베이스는 LPC잔차의 자기상관의 최대값, 프레임거듭제곱 및 제로크로싱과 관련된다. NSRall<ThNSR에 이용되는 룰베이스의 경우에, 대상 프레임은 룰이 적용된다면 V이며, 적용가능한 룰이 존재하지 않는다면 UV가 된다.
구체적인 룰은 다음과 같다.
NSRall<THNSR에 대해서,
numZero XP<24, frrnPow>340 및 r0>0.32이면, 대상 프레임은 V이며,
NSRall≥THNSR에 대해서,
numZero XP>30, frrnPow<900 및 r0>0.23이면, 대상 프레임은 UV이며,
여기서 각 변수는 다음과 같이 정의된다.
numZero XP은 프레임당 제로크로싱의 수이며, frrnPow은 프레임거듭제곱이며, r0은 자기상관의 최대값이다.
상술한 것과 같이 한 세트의 구체적인 룰을 나타내는 룰이 V/UV판별을 행하기 위하여 고려된다.
도 4의 음성신호 디코더의 작동 및 필수부의 구성을 더욱 상세히 설명한다.
LPC합성필터(214)는 이미 설명된 바와같이, 유성음성(V)용 합성필터(236)와 무성음성(UV)용 합성필터(237)로 분리된다. 만일 합성필터를 분리하지 않고 V/UV판별을 행하지 않으면서 LSP가 매 20샘플마다 즉 2.5msec마다 계속적으로 보간된다면, 전체적으로 다른 특성의 LSPs가 V에서 UV로 또는 UV에서 V로의 전이부분에서 보간된다. 그 결과 UV 및 V의 LPC는 각각 V 및 UV의 잔차로써 이용되며, 따라서 이상한 사운드가 생성되기 쉽다. 그러한 악영향이 발생되는 것을 방지하기 위해서, LPC합성필터는 V 및 UV로 분리되며, LPC계수보간처리는 V 및 UV에 대해 독립적으로 수행된다.
이 경우 LPC필터(236, 237)의 계수보간처리 방법을 이하에 설명한다. 특히LSP보간처리는 표 3에 도시된 바와같이 V/UV상태에 의존하여 절환된다.
10차수의 LPC분석의 예를 취할때, 동일한 간격의 LSP는 편평한 필터특성 및 1과 동일한 이득에 대한α-파라미터, 즉 0≤α≤10일 경우α 0=1,α 1=α 2=…=α 10=0에 대응하는 LSP이다.
그러한 10차수의 LPC분석, 즉 10차수의 LSP는 완전히 편형한 스펙트럼과 상응하는 LSP이며, 다수의 LSP는 0과 π 사이의 11개의 동일하게 간격져 떨어진 위치마다 동일간격으로 배열된다. 그러한 경우에, 합성필터의 전체대역이득은 이때 최소의 통과특성(through-characteristics)을 갖는다.
도 15는 이득변경의 방법을 개략적으로 나타낸다. 특히, 도 15는 무성음(UV)부에서 유성음(V)부로 전이(轉移)하는 동안 1/Huv(z)의 이득과 1/Hv(z)의 이득이 어떻게 변화하는지를 나타낸다.
보간처리의 단위에 있어서, 1/Hv(z)의 계수에 대해서는 2.5msec(20개의 샘플)인 한편, 1/Huv(z)의 계수에 대해서는 2kbps의 비트율일때는 10msec(80개의 샘플)이며 6kbps의 비트율일때는 5msec(40개의 샘플)이다. UV에 대해서, 제 2부호화부(120)가 분석/합성법을 이용하여 파형매칭을 수행하므로, 이웃하는 V부의 LSPs를 이용한 보간처리는, 동일간격의 LSPs를 이용하여 보간처리하지 않고도 수행할 수도 있다. 즉, 제 2부호화부(120)내의 UV부의 부호화에 있어서, 제로-입력응답은 V에서 UV로의 전이부에서는 1/A(z)가중합성필터(122)의 내부상태를 깨끗하게 함으로써 제로로 설정된다.
이들 LPC합성필터(236, 237)의 출력은 독립적으로 설치되어 있는 포스트필터(238u, 238v)로 각각 보내진다. 포스트필터의 강도 및 주파수응답은 이들 포스트필터의 강도 및 주파수응답을 V 및 UV에 대해 다른 값으로 설정하기 위하여 V 및 UV에 대해서 다른 값으로 설정된다.
LPC잔차신호의 V 및 UV부 사이의 접속부의 윈도우잉, 즉 LPC합성필터입력으로써의 여기(勵起)에 대해서 이하에 설명한다. 이 윈도우잉은 유성음성합성부(211)의 정현합성회로(215)와 무성음성 합성부(220)의 윈도우잉회로(223)에 의해 수행된다. V-부의 여기(勵起)를 합성하기 위한 방법은 본 발명의 양수인에 의해 제안된 JP특허출원 제 4-91422호에 상세히 설명되어 있으며, 한편 V-부의 여기를 고속으로 합성하기 위한 방법은 동일하게 본 발명의 양수인에 의해 제안된 JP특허출원 제 6-198451호에 상세히 설명되어 있다. 본 실시예에서는, 상기 고속합성법이 상기 고속합성법을 이용하여 V-부의 여기를 생성하는데 이용된다.
이웃하는 프레임의 스펙트럼을 이용하여 보간처리함으로써 정현합성을 수행하는 유성음(V)부에서는, n번째 프레임과 (n+1)번째 프레임 사이의 모든 파형이 생성될 수 있다. 그러나, V부와 UV부, 즉 도 16의 (n+1)번째 프레임과 (n+2)번째 프레임 사이에 놓이는 신호부, 또는 UV부와 V부 사이에 놓이는 부분에 대해서, UV부는 ±80 샘플의 데이터만을 부호화 및 복호화한다(160 샘플의 총합은 하나의 프레임간격과 동일함). 그 결과, 도 17에 도시된 바와같이 접속점을 중첩하기 위해서, 윈도우잉은 V-측에서는 이웃 프레임들 사이의 중심점(CN)을 지나서 수행되는 한편, UV측에서는 중심점(CN)까지 수행된다. 역의 절차는 UV에서 V로의 전이부에 대해서 이용된다. V-측에서의 윈도우처리는 도 17의 점선으로 표시된 것과 같을 수도 있다.
유성음(V)부에서의 잡음합성과 잡음가산작동을 설명한다. 이들 작동은, LPC합성필터입력으로써의 유성음부의 여기와 관련된 이하의 파라미터를 고려하는 잡음을 LPC잔차신호의 유성음부에 가산함으로써, 도 4의 잡음합성회로(216)와, 가중 중첩 및 가산회로(217) 및 가산기(218)에 의해서 수행된다.
즉, 상기 파라미터로는 음조 래그(lag)(Pch), 유성음사운드의 스펙트럼진폭(Am[i]), 프레임내의 최대스펙트럼진폭(Amax) 및 잔차신호레벨(Lev)이 열거될 수 있다. 음조래그(Pch)는 샘플링주파수(fs)=8kHz와 같이 소정의 샘플링주파수(fs)에 대한 음조주기 내의 샘플링수이며 한편, 스펙트럼진폭(Am[i])에서 i는 I=Pch/2와 동일한 fs/2의 대역내 고조파 수에 대해 0<i<I범위내의 정수이다.
이 잡음합성회로(216)에 의한 처리는 예를들어 멀티밴드부호화(MBE)에 의한 무성음성의 합성에서와 상당히 동일한 방법으로 수행된다. 도 18은 잡음합성회로(216)의 구체적 실시예를 나타낸다.
즉, 도 18을 참고하여, 백색잡음생성기(401)는 가우스잡음을 출력하고, 그후 그 출력은 STFT프로세서(402)에 의해 단기 푸리에변환(STFT) 처리됨으로써, 주파수축상의 잡음의 전력스펙트럼을 생성한다. 가우스잡음은 256샘플과 같이 소정의 길이를 갖는, 해밍윈도우와 같은 적절한 윈도우함수에 의해 윈도우처리된 시간영역의 백색잡음신호파형이다. STFT프로세서(402)로부터의 전력스펙트럼은 진폭처리를 위해 승산기(403)로 보내지고, 거기서 잡음진폭 제어회로(410)의 출력과 승산된다. 증폭기(403)의 출력은 역STFT(ISTFT)프로세서(404)로 보내지며, 여기서 시간영역신호로의 변환용 위상으로써의 원백색잡음의 위상을 이용하여 ISTFT처리된다. ISTFT프로세서(404)의 출력은 가중중첩 및 가산회로(217)로 보내진다.
도 18의 실시예에 있어서, 시간영역잡음이 백색잡음생성기(401)에서 생성되고, STFT등과 같은 직교변환처리가 수행됨으로써 주파수영역잡음을 생성한다. 또는, 주파수영역잡음은 잡음생성기에 의해 직접적으로 생성될 수도 있다. 주파수영역잡음을 직접적으로 생성함으로써, STFT 또는 ISTFT와 같은 직교변환처리작동은 생략될 수 있다.
특히, ±x 범위에서 임의의 수를 생성하고, 생성된 무작위수를 FFT스펙트럼의 실수부와 허수부로써 다루는 방법, 또는 0∼최대수(max) 범위의 양의 임의의 수를 생성하고 그것들을 FFT스펙트럼의 진폭으로써 다루는 방법과, -π∼+π범위의 임의의 수를 생성하고 이들 임의의 수를 FFT스펙트럼의 위상으로써 다루는 방법을 이용해도 좋다.
이것은 도 18의 STFT프로세서(402)를 제거함으로써 구조를 간략화하고 처리량을 감소시키는 것을 가능케 한다.
잡음진폭 제어회로(410)는 도 19의 예에 도시된 기본구성을 가지며, 도 4의 스펙트럼포락선의 역양자화기(212)로부터 단자(411)를 거쳐 인가되는 유성음(V)사운드의 스펙트럼진폭(Am[i])에 기초하여 승산기(403)에서의 승산계수를 제어함으로써 합성잡음진폭(Am_잡음[i])을 구한다. 즉, 도 19에서, 스펙트럼진폭(Am[i]) 및 음조래그(Pch)가 인가되어지는 최적의 잡음-혼합값계산회로(416)의 출력은 잡음가중회로(417)에 의해 가중되고, 그 결과출력은 승산기(418)로 보내져서 스펙트럼진폭(Am[i])과 승산되어 잡음진폭(Am_잡음[i])을 생성하게 된다. 잡음합성 및 가산을 위한 제 1의 구체적인 실시예로써, 잡음진폭(Am_잡음[i])이 상기의 4개의 파라미터중 2개, 즉 피치래그(Pch)와 스펙트럼진폭(Am[i])의 함수가 되는 경우에 대해서 이하에 설명한다.
이들 함수중에는 f1(Pch, Am[i])가 있다.
f1(Pch, Am[i]) = 0, (0<i<Noise_b×I일 경우)
f1(Pch, Am[i]) = Am[i]×noise-mix, (Noise_b×I≤i<I일 경우)
noise_mix = K×Pch/2.0
잡음-혼합(noise-mix)의 최대값은 클립핑되는 위치인 noise_mix max이다. 일례로써, K=0.02, noise_mix max=0.3 및 Noise_b=0.7이며, 여기서 Noise_b는 이 잡음이 전체대역중 어느 부분으로부터 가산되는지를 결정하는 상수이다. 본 실시예에서, 잡음은 70%위치보다 높은 주파수범위에 가산되며, 즉 fs=8kHz이라면 잡음은4000×0.7=2800kHz에서 4000kHz까지의 범위에 가산된다.
잡음합성 및 가산을 위한 제 2의 구체적 실시예로써, 잡음진폭(Am-잡음[i])이 4개의 파라미터중 3개, 즉 음조래그(Pch), 스펙트럼진폭(Am[i]) 및 최대스펙트럼진폭(Amax)의 함수f2(Pch, Am[i], Amax)인 경우가 설명된다.
이들 함수중 f2(Pch, Am[i], Amax)는 다음과 같다.
f2(Pch, Am[i], Amax) = 0, (0<i<Noise_b×I일 경우)
f2(Pch, Am[i], Amax) = Am[i]×noise_mix,(Noise_b×I≤i<I이고, noise_mix = K×Pch/2.0일 경우)
noise_mix의 최대값은 noise_mix_max이며, 일례로써, K=0.02, noise_mix_max=0.3 및 Noise_b=0.7이다.
만일 Am[i]×noise_mix>Amax×C×noise_mix이라면, f2(Pch, Am[i], Amax)=Amax×C×noise_mix이며, 여기서 상수(C)는 0.3으로 설정된다(C=0.3). 이와 같은 조건의 수학식에 의해서 레벨이 과도하게 크게 되는 것이 방지될 수 있기 때문에, 고범위(high range)의 레벨이 더 높다면 K 및 noise_mix_max의 상기 값은 더욱 증가될 수 있으며, 잡음레벨은 더욱 증가될 수 있다.
잡음합성 및 가산의 제 3의 구체적 실시예로써, 상기 잡음진폭(Am_잡음[i])이 상기 4개의 파라미터 모두의 함수, 즉 f3(Pch, Am[i], Amax, Lev)일 수도 있다.
함수f3(Pch, Am[i], Amax, Lev)의 구체적인 예는 상기 함수f2(Pch, Am[i],Amax)의 구체예와 기본적으로 유사한다. 잔차신호레벨(Lev)은 스펙트럼진폭(Am[i])의 근평균제곱(RMS)이거나 시간축상에서 측정된 것과 같은 신호레벨이다. 제 2실시예와의 차이점은, K와 noise_mix_max의 값이 Lev의 함수가 되도록 설정된다는 것이다. 즉, Lev이 더 작거나 더 크다면, K 및 noise_mix_max의 값은 각각 더 큰 값과 더 작은 값으로 설정된다. 또는, Lev의 값은 K 및 noise_mix_max의 값과 반비례하도록 설정된다.
이하에는 포스트필터(238v, 238u)에 대하여 설명한다.
도 20은 도 4의 실시예에서의 포스트필터(238u, 238v)로써 이용될 수 있는 포스트필터를 도시한다. 포스트필터의 필수부로써의 스펙트럼형상필터(440)는 포르만트(formant)강세필터(441)와 고범위강세필터(442)로 이루어진다. 스펙트럼형상필터(440)의 출력은 스펙트럼형상처리에 의해 야기되는 이득변경을 보정하기에 적합한 이득조정회로(443)로 보내진다. 이득조정회로(443)는 스펙트럼형상필터(440)의 입력(x)과 출력(y)을 비교함으로써 이득제어회로(445)에 의해 결정된 그 이득(G)을 갖춤으로써, 보정값을 계산하기 위한 이득변경을 계산한다.
LPC합성필터의 분모(Hv(z), Huv(z))의 계수, 즉 ∥-파라미터가α i로써 표현된다면, 스펙트럼형상필터(440)의 특성(PF(z))은 다음과 같이 표현된다.
상기 수학식의 분수부분은 포르만트강세필터의 특성을 나타내는 한편, (1-kz-1)부는 고범위강세필터의 특성을 나타낸다. β,및 k는 상수이며, 예를들어 β=0.6,=0.8 및 k=0.3이다.
이득조정회로(443)의 이득은 다음의 식에 의해서 구해진다.
상기 식에서, x(i) 및 y(i)는 각각 스펙트럼형상필터(440)의 입력 및 출력을 나타낸다.
스펙트럼형상필터(440)의 계수업데이트주기는 LPC합성필터의 계수인α-파라미터의 업데이트주기와 같이 20샘플이거나 2.5msec이며 한편, 이득조정회로(443)의 이득(G)의 업데이트주기는 160샘플 또는 20msec이다.
스펙트럼형상필터(443)의 계수업데이트주기를 포스트필터로써의 스펙트럼형상필터(440)의 계수의 업데이트주기 보다 길게 설정함으로써, 그렇지 않을 경우 이득조정요동에 의해 야기되는 악영향을 방지할 수 있게 된다.
즉, 일반적인 포스트필터에 있어서, 스펙트럼형상필터의 계수업데이트주기는 이득업데이트주기와 동일하도록 설정되며, 이득업데이트주기가 20샘플 및 2.5msec로 선택된다면, 이득값에 있어서의 변동은 1음조주기 내에서도 야기되며, 따라서 클릭잡음을 생성하게 된다. 본 실시예에 있어서, 이득절환주기를 보다 길게 설정함으로써, 예를 들어 1프레임이나 160샘플이나 20msec와 동일하게 설정함으로써, 갑작스런 이득값변경이 발생하는 것을 방지할 수 있다. 역으로, 만일 스펙트럼형상필터 계수의 업데이트주기가 160샘플이나 20msec이라면, 필터특성에 있어 완만한 변경이 생성되지 않게 되며, 따라서 합성파형에서의 악영향을 생성하게 된다. 그러나, 필터계수 업데이트주기를 20샘플이나 2.5msec와 같이 보다 짧은 값으로 설정함으로써, 보다 효과적인 포스트필터링을 실행할 수 있게 된다.
이웃하는 프레임간의 이득접속처리방법에 의해서, 페이드인(fade-in)과 페이드아웃(fade-out)을 위해서, 이전 프레임의 필터계수 및 이득과 현재 프레임의 필터계수 및 이득이 다음식의 삼각형의 윈도우에 의해 곱해진다.
W(i)=i/20(0≤i≤20)
와,
1-W(i) (0≤i≤20)
그 결과의 곱이 서로 합산된다. 도 22는 이전 프레임의 이득(G1)이 어떻게 현재프레임의 이득(G2)으로 합병되는지를 도시한다. 특히, 이전 프레임의 이득과 필터계수를 이용하는 비율은 점차적으로 감소되는 한편, 현재필터의 이득과 필터계수를 이용하는 비율은 점차적으로 증가하게 된다. 도 22의 시점(T)에서 현재프레임용 필터와 이전프레임용 필터의 내부상태는 동일한 상태, 즉 이전 프레임의 최종상태로부터 시작된다.
상술한 신호부호화 및 신호복호화장치, 예를들어 도 23 및 24에 나타낸 휴대용 통신단말기나 휴대용 전화기에 적용되는 음성코드북으로써 사용할 수도 있다.
도 23은 도 1 및 도 3에 나타낸 바와 같이 구성된 음성부호화부(160)를 적용하고 있는 휴대용 단말기의 송신측을 나타낸다. 마이크(161)에서 수집된 음성신호는 증폭기(162)에 의해 증폭되어, 아날로그/디지털(A/D)변환기(163)에 의해 디지털신호로 변환되어서, 도 1 및 도 3에 나타낸 바와 같이 구성된 음성부호화부(160)로 보내진다. A/D변환기(163)로부터의 디지털신호는 입력단자(101)로 인가된다. 음성부호화부(160)는 도 1 및 도 3과 결부하여 설명한 바와같이 부호화를 수행한다. 도 1 및 도 2의 출력단자의 출력신호는 음성부호화부(160)의 출력신호로써 송신채널부호화부(164)로 보내져서, 그 후, 공급된 신호에 대한 채널부호화를 수행하게 된다. 송신채널부호화부(164)의 출력신호는 변조를 위해 변조회로(165)로 보내지고, 그런 다음 디지털/아날로그(D/A)변환기(166)와 RF증폭기(167)를 거쳐서 안테나(168)로 인가된다.
도 24는 도 4에 나타낸 바와 같이 구성된 음성복호화부(260)를 사용하는 휴대용 단말기의 수신측을 나타낸다. 도 24의 안테나(261)에 의해 수신된 음성신호는 RF증폭기(262)에서 증폭되어서, 아날로그/디지털(A/D)변환기(263)를 통해 복조회로(264)로 인가되며, 그로부터 복조된 신호는 송신채널복호화부(265)로 인가된다. 복호화부(265)의 출력신호는 도 2 및 도 4에 나타낸 바와같이 구성된 음성복호화부(260)로 인가된다. 음성복호화부(260)는 도 2 및 도 4와 결부시켜 설명한 바와같이 신호를 복호화한다. 도 2 및 도 4의 출력단자(201)에서의 출력신호는 음성복호화부(260)의 신호로써 디지털/아날로그(D/A)변환기(266)로 보내진다. D/A변환기(266)로부터의 아날로그음성신호는 스피커(268)로 보내진다.
본 발명은 상술한 실시예에 한정되지 않는다. 예를들어, 도 1및 도 3의 음성분석측(엔코더) 또는 도 2 및 도 4의 음성합성측(디코더)의 구성이 상기에서는 하드웨어적으로 설명되었지만, 소위 디지털신호프로세서(DSP)를 사용하는 소프트웨어프로그램으로도 실현될 수 있다. 복호화측의 포스트필터(238v, 238u)나 합성필터(236, 237)는 유성음성이나 무성음성용으로 분리하지 않고 단지 하나의 포스트필터나 단지 하나의 LPC합성필터로써 고안되어도 좋다. 본 발명은 송신 또는 기록/재생에 한정되는 것이 아니며, 음조변환, 음성변환, 컴퓨터처리된 음성의 합성이나 잡음억제등의 다양한 용법에 적용될 수 있다.

Claims (28)

  1. 입력음성신호가 시간축 상에서 소정의 부호화단위로 분할되고 소정의 부호화단위로 부호화되는 음성부호화방법에 있어서,
    입력음성신호의 단기 예측잔차를 구하는 단계와,
    구해진 단기 예측잔차를 정현분석부호화에 의해 부호화하는 단계와,
    파형부호화에 의해 입력음성신호를 부호화하는 단계를 포함하여 이루어진 것을 특징으로 하는 음성부호화방법.
  2. 제 1항에 있어서,
    상기 정현분석부호화로써 고조파부호화가 이용되는 것을 특징으로 하는 음성부호화방법.
  3. 제 1항에 있어서,
    상기 입력음성신호를 제 1모드와 제 2모드로 분류하기 위해서 상기 입력음성신호의 외관상의 유성음/무성음 사운드 상태를 검출하며, 여기서 제 1모드로 판별되는 입력음성신호부는 상기 정현분석부호화에 의해 부호화되는 한편, 제 2모드로 판별되는 입력음성신호부는 분석/합성법을 이용하여 최적의 벡터에 대한 폐루프탐색으로 시간영역파형에 대해 벡터양자화처리되는 것을 특징으로 하는 음성부호화방법.
  4. 제 1항에 있어서,
    단기 예측잔차의 정현분석부호화 파라미터의 양자화를 위하여 청각가중 벡터양자화나 행렬양자화가 이용되는 것을 특징으로 하는 음성부호화방법.
  5. 제 4항에 있어서,
    무게는 무게전달함수의 임펄스응답으로부터 유도되는 파라미터의 직교변환결과에 기초하여 상기 청각가중 행렬양자화나 벡터양자화를 실행할때 계산되는 것을 특징으로 하는 음성부호화방법.
  6. 입력음성신호가 시간축 상에서 소정의 부호화단위로 분할되고 소정의 부호화단위로 부호화되는 음성부호화장치에 있어서,
    입력음성신호의 단기 예측잔차를 구하기 위한 수단과,
    구해진 단기 예측잔차를 정현분석부호화에 의해 부호화하기 위한 수단과,
    입력음성신호를 파형부호화에 의해 부호화하기 위한 수단을 포함하여 구성된 것을 특징으로 하는 음성부호화장치.
  7. 제 6항에 있어서,
    상기 정현분석부호화로써 고조파부호화가 이용되는 것을 특징으로 하는 음성부호화장치.
  8. 제 6항에 있어서,
    입력음성신호가 유성음성인지 무성음성인지를 판별하기 위한 수단을 더 포함하여 구성되며,
    여기서, 상기 파형부호화수단으로써, 분석/합성법에 의한 분석을 이용하여 최적의 벡터의 폐루프탐색으로 벡터양자화를 행하는 코드여기 선형예측부호화수단이 이용되며,
    여기서, 상기 판별수단에 의한 판별결과에 기초하여 유성음으로 판별되는 입력음성신호부와 무성음성으로 판별되는 입력음성신호부에서, 상기 정현분석부호화수단에 의한 부호화출력과 상기 코드여기 선형예측부호화수단에 의한 부호화출력이 각각 도출되는 것을 특징으로 하는 음성부호화장치.
  9. 제 6항에 있어서,
    상기 정현분석부호화수단은 상기 단기 분석부호화 파라미터의 정현분석부호화 파라미터를 양자화하기 위해 청각가중 벡터양자화나 행렬양자화를 이용하는 것을 특징으로 하는 음성부호화장치.
  10. 제 6항에 있어서,
    상기 정현분석부호화수단은 무게전달함수의 임펄스응답으로부터 유도된 파라미터의 직교변환결과에 기초하여 상기 청각가중 행렬양자화 또는 벡터양자화를 실행할때 무게를 계산하는 것을 특징으로 하는 음성부호화장치.
  11. 단기 예측잔차를 구함으로써 정현분석부호화를 이용하여 입력음성신호의 유성음을 부호화할때와, 단기 예측잔차를 이용하는 또다른 부호화를 이용하여 입력음성신호의 무성음부를 부호화할때 얻어진 부호화음성신호를 복호화하는 음성복호화방법에 있어서,
    단기 예측잔차를 구하기 위해 정현합성을 이용하여 부호화음성신호의 유성음성부에 대한 단기 예측잔차를 구하는 단계와,
    부호화음성신호의 무성음성부에 대한 단기 예측잔차를 구하는 단계와,
    구해진 유성 및 무성음성부의 상기 단기 예측잔차에 기초하여 시간축파형을 합성하기 위한 예측합성필터링단계를 포함하여 이루어진 것을 특징으로 하는 음성복호화방법.
  12. 제 11항에 있어서,
    상기 예측합성필터링단계는, 구해진 유성음성부의 단기 예측잔차에 기초하여 유성음부의 시간축파형을 합성하는 제 1예측필터링 하위단계와, 구해진 무성음성부의 단기 예측잔차에 기초하여 무성음부의 시간축파형을 합성하는 제 2예측필터링 하위단계와,를 포함하는 것을 특징으로 하는 음성복호화방법.
  13. 제 11항에 있어서,
    상기 제 1예측합성필터의 출력을 포스트필터링하는 제 1포스트필터링단계와, 상기 제 2예측합성필터의 출력을 포스트필터링하는 제 2포스트필터링단계와를 더 포함하여 이루어진 것을 특징으로 하는 음성복호화방법.
  14. 제 11항에 있어서,
    상기 단기 예측잔차의 정현합성 파라미터를 양자화하기 위하여 청각가중 벡터양자화 또는 행렬양자화는 이용되는 것을 특징으로 하는 음성복호화방법.
  15. 단기 예측잔차를 구함으로써 정현분석부호화를 이용하여 입력음성신호의 유성음부를 부호화할 때와 단기 예측잔차를 이용하는 다른 부호화를 이용하여 입력음성신호의 무성음부를 부호화할 때 얻어지는 부호화음성신호를 복호화하기 위한 음성복호화장치에 있어서,
    정현분석부호화에 의해서 입력음성신호의 유성음부에 대한 단기 예측잔차를 구하기 위한 수단과,
    상기 부호화음성신호의 무성음성부에 대한 단기 예측잔차를 구하기 위한 수단과,
    구해진 유성 및 무성음성부의 상기 단기 예측잔차에 기초하여 시간축파형을 합성하기 위한 예측합성필터링수단을 포함하여 이루어진 것을 특징으로 하는 음성복호화장치.
  16. 제 15항에 있어서,
    상기 예측합성필터링수단은, 구해진 유성음성부의 단기 예측잔차에 기초하여 유성음부의 시간축파형을 합성하는 제 1예측필터링 수단과,
    구해진 무성음성부의 단기 예측잔차에 기초하여 무성음부의 시간축파형을 합성하는 제 2예측필터링수단을 포함하는 것을 특징으로 하는 음성복호화장치.
  17. 입력음성신호의 단기 예측잔차를 구하고, 정현분석부호화를 이용하여 그 결과의 예측잔차를 부호화할 때 얻어지는 부호화음성신호를 복호화하기 위한 음성복호화방법에 있어서,
    정현합성에 의해서 부호화음성신호의 단기 예측잔차를 구하는 정현합성단계와,
    상기 부호화된 음성신호에 기초하여 진폭이 제어된 잡음을 상기 단기 예측잔차에 가산하는 잡음가산단계와,
    잡음에 가산된 단기 예측잔차에 기초하여 시간영역파형을 합성하는 예측합성필터링단계를 포함하여 이루어진 음성복호화방법.
  18. 제 17항에 있어서,
    상기 잡음가산단계는 상기 부호화음성신호로부터 얻어진 스펙트럼포락선과 음조에 기초하여 제어된 잡음을 가산하는 것을 특징으로 하는 음성복호화방법.
  19. 제 17항에 있어서,
    상기 잡음가산단계는 소정값으로 한정된 상한값의 잡음을 가산하는 것을 특징으로 하는 음성복호화방법.
  20. 제 17항에 있어서,
    상기 정현분석부호화는 상기 입력음성신호의 유성음부의 단기 예측잔차에 대하여 행해지며, 최적의 벡터의 폐루프탐색에 의한 시간축파형의 벡터양자화는 상기 입력음성신호의 무성음부에 대하여 분석/합성법에 의해 행해지는 것을 특징으로 하는 음성복호화방법.
  21. 입력음성신호의 단기 예측잔차를 구하고 그 결과의 예측잔차를 정현분석부호화로 부호화하여 얻은 부호화음성신호를 복호화하기 위한 음성복호화장치에 있어서,
    정현합성에 의해서 부호화음성신호의 단기 예측잔차를 구하기 위한 정현합성수단과,
    상기 부호화음성신호에 기초하여 진폭이 제어된 잡음을 상기 단기 예측잔차에 가산하기 위한 잡음가산수단과,
    잡음에 가산된 단기 예측잔차에 기초하여 시간영역파형을 합성하기 위한 예측합성필터링수단을 포함하여 구성된 것을 특징으로 하는 음성복호화장치.
  22. 제 21항에 있어서,
    상기 잡음가산수단은 상기 부호화음성신호로부터 얻어진 음조 및 스펙트럼포락선에 기초하여 제어된 잡음을 가산하는 것을 특징으로 하는 음성복호화장치.
  23. 제 21항에 있어서,
    상기 잡음가산수단은 소정의 값으로 한정된 상한값의 잡음을 가산하는 것을 특징으로 하는 음성복호화장치.
  24. 제 21항에 있어서,
    상기 정현분석부호화는 상기 입력음성신호의 유성음부의 단기 예측잔차에 대하여 행해지며, 최적의 벡터의 폐루프탐색에 의한 시간축파형의 벡터양자화는 분석/합성방법에 의해 상기 입력음성신호의 무성음부에 대하여 행해지는 것을 특징으로 하는 음성복호화장치.
  25. 입력가청신호가 주파수영역신호로 변환된 입력가청신호로부터 유도되는 파라미터에 의해 표현되고, 그렇게 표현된 입력가청신호가 부호화되는 가청신호의 부호화방법에 있어서,
    상기 파라미터의 가중벡터양자화를 위해서, 무게는 무게전달함수의 임펄스응답으로부터 유도되는 파라미터의 직교변환결과에 기초하여 계산되는 것을 특징으로 하는 가청신호 부호화방법.
  26. 제 25항에 있어서,
    상기 직교변환은 고속의 푸리에변환이며, 만일 고속의 푸리에변환으로부터의 도출되는 계수의 실수부와 허수부가 각각 re 및 im로 표현될때, (re, im)자체나, re2+im2나 또는 (re2+im2)1/2중 어느 하나가, 보간처리됨으로써 상기 무게로써 이용되는 것을 특징으로 하는 가청신호 부호화방법.
  27. 입력음성신호를 증폭하기 위한 증폭기수단과,
    상기 증폭기수단의 출력신호를 아날로그/디지털 변환하기 위한 A/D변환수단과,
    상기 음성부호화수단의 출력신호를 음성부호화하기 위한 음성부호화수단과,
    상기 음성부호화수단의 출력신호를 채널부호화하기 위한 송신경로 부호화수단과,
    상기 송신경로 부호화수단의 출력신호를 변조하기 위한 변조수단과,
    상기 변조수단의 출력신호를 디지털/아날로그 변환하기 위한 D/A변환수단과,
    상기 D/A변환수단의 출력신호를 증폭하여 그 결과의 증폭신호를 안테나에 인가하기 위한 증폭기수단을 포함하여 구성되며,
    여기서 상기 음성부호화수단은,
    입력음성신호의 단기 예측잔차를 구하기 위한 예측부호화수단과,
    구해진 단기 예측잔차를 정현분석부호화로 부호화하기 위한 정현분석부호화수단과,
    상기 입력음성신호를 파형부호화하기 위한 파형부호화수단을 포함하여 구성된 것을 특징으로 하는 휴대무선단말장치.
  28. 수신신호를 증폭하기 위한 증폭기수단과,
    상기 증폭기수단의 출력신호를 아날로그/디지털변환하고 그 결과의 신호를 복조하기 위한 복조수단과,
    상기 송신경로 복호화수단의 출력신호를 음성복호화하기 위한 음성복호화수단과,
    상기 복조수단의 출력신호를 디지털/아날로그 변환하기 위한 D/A변환수단을 포함하여 구성되며,
    여기서 상기 음성복호화수단은,
    상기 부호화음성신호의 단기 예측잔차를 정현합성에 의해 구하기 위한 정현합성수단과,
    상기 부호화음성신호에 기초하여 진폭 제어된 잡음을 상기 단기 예측잔차에 가산하기 위한 잡음가산수단과,
    잡음에 가산된 단기 예측잔차에 기초하여 시간영역파형을 합성하기 위한 예측합성필터를 포함하여 구성된 것을 특징으로 하는 휴대무선단말장치.
KR1019960048690A 1995-10-26 1996-10-25 음성부호화방법및장치와음성복호화방법및장치 KR100427754B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP95-302129 1995-10-26
JP30212995A JP3707116B2 (ja) 1995-10-26 1995-10-26 音声復号化方法及び装置

Publications (2)

Publication Number Publication Date
KR970024628A KR970024628A (ko) 1997-05-30
KR100427754B1 true KR100427754B1 (ko) 2004-08-11

Family

ID=17905273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960048690A KR100427754B1 (ko) 1995-10-26 1996-10-25 음성부호화방법및장치와음성복호화방법및장치

Country Status (10)

Country Link
US (1) US7454330B1 (ko)
EP (3) EP1164578B1 (ko)
JP (1) JP3707116B2 (ko)
KR (1) KR100427754B1 (ko)
CN (1) CN100409308C (ko)
AU (1) AU725140B2 (ko)
CA (1) CA2188493C (ko)
DE (3) DE69625875T2 (ko)
MX (1) MX9605122A (ko)
RU (1) RU2233010C2 (ko)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
KR100429978B1 (ko) * 1996-12-26 2004-07-27 엘지전자 주식회사 음성합성시스템의음질저하방지장치
DE19706516C1 (de) 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
AU2003250410A1 (en) * 2002-09-17 2004-04-08 Koninklijke Philips Electronics N.V. Method of synthesis for a steady sound signal
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
RU2387024C2 (ru) * 2004-11-05 2010-04-20 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
US9886959B2 (en) * 2005-02-11 2018-02-06 Open Invention Network Llc Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
PL1866915T3 (pl) 2005-04-01 2011-05-31 Qualcomm Inc Sposób i urządzenie do przeciwrozproszeniowego filtrowania sygnału pobudzającego predykcji mowy rozciągniętego na szerokość pasma
WO2006116025A1 (en) 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US9454974B2 (en) 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
KR101186133B1 (ko) * 2006-10-10 2012-09-27 퀄컴 인코포레이티드 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치
AU2007316403B2 (en) 2006-11-06 2011-02-03 Qualcomm Incorporated MIMO transmission with layer permutation in a wireless communication system
US8005671B2 (en) 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
US20080162150A1 (en) * 2006-12-28 2008-07-03 Vianix Delaware, Llc System and Method for a High Performance Audio Codec
EP2259253B1 (en) * 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101400588B1 (ko) * 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
RU2494541C1 (ru) * 2009-08-17 2013-09-27 Алькатель Люсент Способ и ассоциированное устройство для сохранения когерентности канала предварительного кодирования в сети связи
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
WO2011128342A1 (en) * 2010-04-13 2011-10-20 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Method and encoder and decoder for gap - less playback of an audio signal
ES2683648T3 (es) * 2010-07-02 2018-09-27 Dolby International Ab Descodificación de audio con pos-filtración selectiva
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
EP2657933B1 (en) 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension
US20120197643A1 (en) * 2011-01-27 2012-08-02 General Motors Llc Mapping obstruent speech energy to lower frequencies
WO2012121637A1 (en) 2011-03-04 2012-09-13 Telefonaktiebolaget L M Ericsson (Publ) Post-quantization gain correction in audio coding
US9009036B2 (en) * 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
JP6133422B2 (ja) * 2012-08-03 2017-05-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
KR101629661B1 (ko) * 2012-08-29 2016-06-13 니폰 덴신 덴와 가부시끼가이샤 복호 방법, 복호 장치, 프로그램 및 그 기록매체
AU2014211474B2 (en) * 2013-01-29 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
PT3136384T (pt) 2014-04-25 2019-04-22 Ntt Docomo Inc Dispositivo de conversão do coeficiente de previsão linear e método de conversão do coeficiente de previsão linear
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement
US11280833B2 (en) * 2019-01-04 2022-03-22 Rohde & Schwarz Gmbh & Co. Kg Testing device and testing method for testing a device under test

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US4797926A (en) 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
US5228086A (en) * 1990-05-18 1993-07-13 Matsushita Electric Industrial Co., Ltd. Speech encoding apparatus and related decoding apparatus
JPH0491442A (ja) 1990-08-02 1992-03-24 Fujitsu Ltd 結晶製造装置
US5323486A (en) * 1990-09-14 1994-06-21 Fujitsu Limited Speech coding system having codebook storing differential vectors between each two adjoining code vectors
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP2878539B2 (ja) 1992-12-08 1999-04-05 日鐵溶接工業株式会社 チタンクラッド鋼の溶接方法
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置

Also Published As

Publication number Publication date
RU2233010C2 (ru) 2004-07-20
EP1164579A3 (en) 2002-01-09
DE69634179T2 (de) 2006-03-30
AU725140B2 (en) 2000-10-05
CN1156303A (zh) 1997-08-06
DE69634055T2 (de) 2005-12-22
MX9605122A (es) 1998-05-31
EP0770990A2 (en) 1997-05-02
EP1164578B1 (en) 2005-01-12
EP1164579A2 (en) 2001-12-19
CA2188493C (en) 2009-12-15
JPH09127991A (ja) 1997-05-16
DE69625875T2 (de) 2003-10-30
DE69634055D1 (de) 2005-01-20
AU7037296A (en) 1997-05-01
EP1164579B1 (en) 2004-12-15
EP0770990A3 (en) 1998-06-17
KR970024628A (ko) 1997-05-30
EP1164578A3 (en) 2002-01-02
US7454330B1 (en) 2008-11-18
EP0770990B1 (en) 2003-01-22
CA2188493A1 (en) 1997-04-27
DE69634179D1 (de) 2005-02-17
EP1164578A2 (en) 2001-12-19
JP3707116B2 (ja) 2005-10-19
CN100409308C (zh) 2008-08-06
DE69625875D1 (de) 2003-02-27

Similar Documents

Publication Publication Date Title
KR100427754B1 (ko) 음성부호화방법및장치와음성복호화방법및장치
KR100487136B1 (ko) 음성복호화방법및장치
KR100469224B1 (ko) 음성부호화방법및장치
KR100427752B1 (ko) 음성부호화방법 및 장치
KR100535366B1 (ko) 음성신호부호화방법및장치
KR100543982B1 (ko) 벡터양자화방법,음성부호화방법및장치
US6532443B1 (en) Reduced length infinite impulse response weighting
US5495555A (en) High quality low bit rate celp-based speech codec
US6108621A (en) Speech analysis method and speech encoding method and apparatus
JPH10214100A (ja) 音声合成方法
AU7201300A (en) Speech encoding method
JPH1097299A (ja) ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120402

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee