KR20130112869A - 양자화 장치 및 양자화 방법 - Google Patents

양자화 장치 및 양자화 방법 Download PDF

Info

Publication number
KR20130112869A
KR20130112869A KR1020137006545A KR20137006545A KR20130112869A KR 20130112869 A KR20130112869 A KR 20130112869A KR 1020137006545 A KR1020137006545 A KR 1020137006545A KR 20137006545 A KR20137006545 A KR 20137006545A KR 20130112869 A KR20130112869 A KR 20130112869A
Authority
KR
South Korea
Prior art keywords
quantization
candidates
vector
candidate
distortion
Prior art date
Application number
KR1020137006545A
Other languages
English (en)
Inventor
도시유키 모리이
Original Assignee
파나소닉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 주식회사 filed Critical 파나소닉 주식회사
Publication of KR20130112869A publication Critical patent/KR20130112869A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0006Tree or treillis structures; Delayed decisions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Abstract

적은 계산량으로 부호화 왜곡을 작게 하여, 충분한 부호화 성능을 얻는 양자화 장치 및 양자화 방법을 제공한다. 다단 벡터 양자화부(102)는, 1단째의 벡터 양자화부(201-1)에서는 미리 지정된 후보수(N)로 하고, 2단째 이후의 벡터 양자화부(201-2~201-J)에서는 단이 진행될 때마다 후보수를 1개씩 줄여, 후보수가 3 이하가 되었을 경우에는, 그때마다, 양자화 왜곡을 평가하여, 양자화 왜곡이 소정의 임계값보다 큰 경우는 다음 단의 후보수를 미리 정해진 수치(P), 양자화 왜곡이 소정의 임계값 이하인 경우는 다음 단의 후보수를 미리 정해진 P보다 작은 수치(Q)로 한다.

Description

양자화 장치 및 양자화 방법{QUANTIZATION DEVICE AND QUANTIZATION METHOD}
본 발명은, 트리탐색을 이용하여 양자화를 행하는 양자화 장치 및 양자화 방법에 관한 것이다.
이동체통신에 있어서는, 전송대역의 유효이용을 위하여 음성 및 화상의 디지털정보의 압축부호화가 필수이다. 그 중에서도 휴대전화에서 널리 이용된 음성코덱(부호화/복호화) 기술에 대한 기대는 크며, 압축율이 높은 종래의 고효율 부호화에 대하여 보다 좋은 음질의 요구가 강해지고 있다. 또, 공중 사용되기 위하여 표준화가 필수이며, 세계적으로 연구개발이 활발히 행해지고 있다.
최근에는, 음성과 음악을 모두 다 부호화할 수 있는 코덱의 표준화가 ITU-T(International Telecommunication Union Telecommunication Standardization Sector) 및 MPEG(Moving Picture Expert Group)에서 검토되고 있으며, 보다 효율적이고 고품질인 음성코덱이 요구되고 있다.
20년 전에 확립된, 음성의 발성기구를 모델화하여 벡터양자화를 정교하게 응용한 기본방식인 CELP(Code Excited Linear Prediction)에 의하여, 음성부호화기술은 크게 성능을 향상시켰다. 국제규격에서는, ITU-T 표준 G.729, G.722.2, ETSI 표준 AMR, AMR-WB, 3GPP2 표준 VMR-WB 등, 많은 표준방식에 CELP가 채용되고 있다.
상기 CELP의 주요한 기술은, 음성스펙트럼의 개형을 저(低)비트레이트로 부호화할 수 있는 LPC(Linear Prediction Coding) 분석과, LPC 분석에 의하여 얻어진 파라미터의 양자화이다. 특히, 최근의 표준방식의 대부분에 사용되고 있는 것은 선스펙트럼에 의한 양자화이다. 그 대표적인 것은 LSP(Line Spectral Pair)와, 그것을 개량한 ISP(Immittance Spectral Pair)이며, 양자 모두 보간성의 양호함으로부터 벡터양자화(이하, "VQ(Vector Quantization)"라고 한다)와 친화성이 높다. 이들을 부호화에 이용함으로써, 저비트레이트로 스펙트럼정보를 전송할 수 있다. 이들에 의하여, CELP를 기본으로 하는 코덱의 성능은 현격하게 향상되었다.
최근에는, 고효율이고 또한 고품질인 음성코덱이 요구되고 있는 것에 대응하기 위하여, 광대역신호(16kbps), 초광대역신호(32kbps)를 부호화하는 코덱이, ITU-T, MPEG, 3GPP 등에 있어서 표준화되고 있다. 광대역, 초광대역의 디지털 신호를 부호화하기 위하여 LPC계수를 이용하는 경우는, 16차 이상의 차수가 많은 LSP 또는 ISP를 많은 비트수로 부호화할 필요가 있다. 그로 인하여, 부호화 대상(타겟벡터)을 복수로 분할하고, 각각을 벡터양자화한다는 "스플리트VQ"가 일반적으로 이용되고 있지만, 벡터의 요소간의 통계적 상관을 사용할 수 없기 때문에, 부호화 성능이 떨어져 버린다.
따라서, 보다 부호화 성능을 얻을 수 있는 방법으로서, 다단양자화(Multiple stage quantization)가 이용된다. 이것은, 타겟벡터를 분할하지 않고, 복수의 작은 벡터양자화를 이용하여 오차를 점점 작게 하도록 연속하여 양자화를 행하는 것이다. 즉, 앞의 단의 양자화의 오차벡터를 다음 단에서 양자화한다는 방법이다. 앞의 단에서 가장 오차가 작은 것만을 이용하면 계산량은 매우 작게 할 수 있다. 단, 오차가 가장 작은 양자화 결과만을 후보로 하여 다단양자화를 행하면, 종합적인 부호화 왜곡이 충분히 작아지지 않아, 양자화 성능이 나빠진다.
이로 인하여, 오차가 작은 양자화 결과의 후보를 상위부터 몇 개 남기는 트리탐색(Tree search)을 이용하는 것이 고안되고 있다. 이로써, 어느 정도 적은 계산량으로 높은 부호화 성능을 얻을 수 있다. 특히, 할당 비트수가 많은 경우는, 계산량을 적게 억제하기 위하여 단수를 늘리게 되지만, 많은 단수의 다단양자화에서는 트리탐색을 이용하지 않으면 충분한 양자화 성능을 얻을 수 없다.
특허문헌 1에는, CELP의 음원벡터를 다단으로 양자화하는 방법에 대하여 기재되어 있다. 또, 단수가 많아진 경우에는, 트리탐색을 이용함으로써, 효율이 좋은 탐색을 할 수 있는 것이 잘 알려져 있다. 각 단에 있어서 남기는 후보(오차가 작은 양자화 결과)의 수를 N으로 하여 탐색을 행하는 방법은 "N베스트서치(N best search)"라고 불리고 있으며, 효율이 좋은 다단의 탐색방법으로서 알려져 있다.
또, 특허문헌 2에는, 벡터양자화는 사용하고 있지 않지만, N베스트서치에 의한 탐색의 예가 기재되어 있다.
일본 특허공개공보 2003-8446호 일본 특허공개공보 2000-261321호
그러나, 상술한 N>1의 N베스트서치를 이용한 다단 벡터 양자화는, 각 단의 후보를 1개로 좁히는 (N=1)보다 최종적인 부호화 왜곡을 작게 할 수는 있지만, 계산량이 N배로 증가해 버린다. 반대로, N의 수를 적게 억제하면, 이번에는 부호화 왜곡이 커져 버린다.
이와 같이, 종래의 N베스트서치를 이용한 다단 벡터 양자화에서는, 보다 적은 계산량으로 부호화 왜곡을 작게 하는 고안이 이루어져 있지 않아, 충분한 부호화 성능을 얻을 수 없다.
본 발명의 목적은, 적은 계산량으로 부호화 왜곡을 작게 하여, 충분한 부호화 성능을 얻는 양자화 장치 및 양자화 방법을 제공하는 것이다.
본 발명의 양자화 장치는, 트리탐색을 이용하여 다단양자화를 행하는 양자화 장치로서, 부호화 대상의 1개 이상의 타겟의 각각과 부호장(符號帳)에 격납된 코드벡터와의 매칭을 행하여, 양자화 왜곡이 가장 작은 쪽부터 1개 이상의 후보를, 전단에 있어서 결정된, 혹은 미리 설정된 후보수만큼 구하는 탐색수단과, 상기 후보에 대하여, 상기 타겟으로부터 상기 코드벡터를 감산하여 양자화 오차 벡터를 산출하는 산출수단과, 상기 전단에 있어서 결정된 후보수에 근거하여 다음 단에서 이용할 후보수를 결정하는 후보수 결정수단을 구비하는 구성을 채용한다.
본 발명의 양자화 방법은, 트리탐색을 이용하여 다단양자화를 행하는 양자화 방법으로서, 부호화 대상의 1개 이상의 타겟의 각각과 부호장에 격납된 코드벡터와의 매칭을 행하여, 양자화 왜곡이 가장 작은 쪽부터 1개 이상의 후보를, 1단째에서는, 미리 지정된 후보수만큼 구하고, 2단째 이후에서는, 전단에 있어서 결정된 후보수만큼 구하여, 상기 후보에 대하여, 상기 타겟으로부터 상기 코드벡터를 감산하여 양자화 오차 벡터를 산출하고, 상기 전단에 있어서 결정된 후보수에 근거하여 다음 단에서 이용할 후보수를 결정하도록 했다.
본 발명에 의하면, 적은 계산량으로 부호화 왜곡을 작게 하여, 충분한 부호화 성능을 얻을 수 있다.
도 1은 본 발명의 실시형태 1에 관한 CELP부호화장치의 구성을 나타내는 블록도이다.
도 2는 도 1에 나타낸 다단 벡터 양자화부의 내부구성을 나타내는 블록도이다.
도 3은 도 2에 나타낸 벡터 양자화부의 내부구성을 나타내는 블록도이다.
도 4는 도 3에 나타낸 후보수 결정부에 있어서의 후보수 결정수순을 나타내는 플로우도이다.
도 5는 본 발명의 실시형태 2에 관한 후보수 결정부에 있어서의 후보수 결정수순을 나타내는 플로우도이다.
이하, 본 발명의 실시형태에 대하여, 도면을 참조하여 상세하게 설명한다.
(실시형태 1)
도 1은, 본 발명의 실시형태 1에 관한 CELP부호화장치(100)의 구성을 나타내는 블록도이다. 이 CELP부호화장치(100)는, 성도(聲道)정보와 음원정보로 이루어지는 음성신호(S11) 중, 성도정보에 대해서는, LPC파라미터(선형예측계수)를 구함으로써 부호화한다. 또, CELP부호화장치(100)는, 음원정보에 대해서는, 미리 기억되어 있는 음성모델 중 어떤 것을 이용할지를 특정하는 부호데이터, 즉, 적응 부호장(103) 및 고정 부호장(104)에서 어떠한 음원벡터(코드벡터)를 생성할지를 특정하는 부호데이터를 구함으로써, 음원정보를 부호화한다.
구체적으로는, CELP부호화장치(100)의 각 부는 이하의 동작을 행한다.
LPC 분석부(101)는, 음성신호(S11)에 대하여서 선형예측분석을 실시하며, 스펙트럼포락선정보인 LPC파라미터를 구하여, 다단 벡터 양자화부(102) 및 청감 가중부(111)에 출력한다.
다단 벡터 양자화부(102)는, LPC 분석부(101)에서 얻어지는 LPC파라미터를 다단 벡터 양자화하여, 얻어지는 양자화 LPC파라미터를 LPC 합성필터(109)에, 양자화 LPC파라미터의 부호데이터를 CELP부호화장치(100)의 외부로 출력한다.
한편, 적응 부호장(103)은, LPC 합성필터(109)에서 사용된 과거의 구동음원을 기억하고 있으며, 왜곡 최소화부(112)로부터 지시된 부호데이터에 대응하는 적응 부호장래그에 따라, 기억하고 있는 구동음원으로부터 1서브프레임분의 음원벡터를 생성한다. 이 음원벡터는, 적응 부호장 벡터로서 승산기(106)에 출력된다.
고정 부호장(104)은, 소정 형상의 음원벡터를 복수 개 미리 기억하고 있으며, 왜곡 최소화부(112)로부터 지시된 부호데이터에 대응하는 음원벡터를, 고정 부호장 벡터로서 승산기(107)에 출력한다. 여기에서, 고정 부호장(104)은 대수적 부호장이며, 2종류의 개수의 펄스에 의한 대수적 부호장을 이용한 경우의 구성에 대하여, 가중이 가산에 의하여 이루어지는 경우에 대하여 설명한다.
대수적 음원이란, 많은 표준코덱에 채용되고 있는 음원이며, 위치와 극성(+-)만이 정보인, 크기가 1인 임펄스를 소수 생성시킨 음원이다. 예를 들면, ARIB규격서 "RCR STD-27K"의 5.3절의 "CS-ACELP"에서의 5.3.1.9장, 5.4절의 "ACELP"에서의 5.4.3.7장 등에 기재되어 있다.
또한, 상기의 적응 부호장(103)은, 유성음과 같이 주기성이 강한 성분을 표현하기 위하여 사용된다. 한편, 고정 부호장(104)은, 백색잡음과 같이 주기성이 약한 성분을 표현하기 위하여 사용된다.
게인 부호장(105)은, 왜곡 최소화부(112)로부터의 지시에 따라, 적응 부호장(103)으로부터 출력되는 적응 부호장 벡터용의 게인(적응 부호장 게인), 및 고정 부호장(104)으로부터 출력되는 고정 부호장 벡터용의 게인(고정 부호장 게인)을 생성하여, 각각 승산기(106, 107)에 출력한다.
승산기(106)는, 게인 부호장(105)으로부터 출력된 적응 부호장 게인을, 적응 부호장(103)으로부터 출력된 적응 부호장 벡터에 곱하여, 가산기(108)에 출력한다.
승산기(107)는, 게인 부호장(105)으로부터 출력된 고정 부호장 게인을, 고정 부호장(104)으로부터 출력된 고정 부호장 벡터에 곱하여, 가산기(108)에 출력한다.
가산기(108)는, 승산기(106)로부터 출력된 적응 부호장 벡터와, 승산기(107)로부터 출력된 고정 부호장 벡터를 가산하여, 가산 후의 음원벡터를 구동음원으로 하여 LPC 합성필터(109)에 출력한다.
LPC 합성필터(109)는, 다단 벡터 양자화부(102)로부터 출력된 양자화 LPC파라미터를 필터계수로 하여, 적응 부호장(103) 및 고정 부호장(104)에서 생성되는 음원벡터를 구동음원으로 한 필터함수, 즉, LPC 합성필터를 이용하여 합성신호를 생성한다. 이 합성신호는, 가산기(110)에 출력된다.
가산기(110)는, LPC 합성필터(109)에서 생성된 합성신호를 음성신호(S11)로부터 감산하는 것에 의하여 오차신호를 산출하여, 이 오차신호를 청감 가중부(111)에 출력한다. 또한, 이 오차신호가 부호화 왜곡에 상당한다.
청감 가중부(111)는, 가산기(110)로부터 출력된 부호화 왜곡에 대하여 청감적인 가중을 부여하여, 왜곡 최소화부(112)에 출력한다.
왜곡 최소화부(112)는, 청감 가중부(111)로부터 출력된 부호화 왜곡이 최소가 되도록, 적응 부호장(103), 고정 부호장(104) 및 게인 부호장(105)의 각 인덱스를 서브프레임마다 구하여, 이들 인덱스를 부호데이터로 하여 CELP부호화장치(100)의 외부에 출력한다. 보다 상세하게는, 상기의 적응 부호장(103) 및 고정 부호장(104)에 근거하여 합성신호를 생성하고, 이 신호의 부호화 왜곡을 구하는 일련의 처리는 폐루프제어(귀환제어)로 되어 있으며, 왜곡 최소화부(112)는, 각 부호장에 지시하는 부호데이터를 1서브프레임 내에 있어서 여러 가지로 변화시킴으로써 각 부호장을 탐색하여, 최종적으로 얻어지는, 부호화 왜곡을 최소로 하는 각 부호장의 부호데이터를 출력한다.
또한, 부호화 왜곡이 최소가 될 때의 구동음원은, 서브프레임마다 적응 부호장(103)에 피드백된다. 적응 부호장(103)은, 이 피드백에 의하여, 기억되어 있는 구동음원을 갱신한다.
여기에서, 고정 부호장(104)의 탐색방법에 대하여 설명한다. 먼저, 음원벡터의 탐색과 부호데이터의 도출은, 이하의 식 (1)의 부호화 왜곡을 최소화하는 음원벡터를 탐색함으로써 행해진다.
[수 1]
Figure pct00001
...(1)
E:부호화 왜곡, x:부호화타겟, p:적응 부호장 벡터의 게인, H:청감가중 합성필터, a:적응 부호장 벡터, q:고정 부호장 벡터의 게인, s:고정 부호장 벡터
일반적으로, 적응 부호장 벡터와 고정 부호장 벡터는 오픈루프로(별개의 루프로) 탐색되므로, 고정 부호장(104)의 부호의 도출은, 이하의 식(2)의 부호화 왜곡을 최소화하는 고정 부호장 벡터를 탐색함으로써 행해진다.
[수 2]
Figure pct00002
...(2)
E:부호화 왜곡, x:부호화타겟(청감가중 음성신호), p:적응 부호장 벡터의 최적 게인, H:청감가중 합성필터, a:적응 부호장 벡터, q:고정 부호장 벡터의 게인, s:고정 부호장 벡터, y:고정 부호장탐색의 타겟벡터
여기에서, 게인 p, q는 음원의 부호를 탐색한 후에 결정하므로, 여기에서는 최적 게인으로 탐색을 진행시키는 것으로 한다. 그러면, 상기 식 (2)는 이하의 식 (3)으로 쓸 수 있다.
[수 3]
Figure pct00003
...(3)
그리고, 이 왜곡의 식을 최소화하는 것은, 이하의 식 (4)의 함수 C를 최대화하는 것과 동일한 값인 것을 알 수 있다.
[수 4]
Figure pct00004
...(4)
따라서, 대수적 부호장의 음원과 같은 소수 펄스로 이루어지는 음원의 탐색의 경우는, yH와 HH를 미리 계산해 두면, 적은 계산량으로 상기 함수 C를 산출할 수 있다.
도 2는, 도 1에 나타낸 다단 벡터 양자화부(102)의 내부구성을 나타내는 블록도이다. 본 실시형태에서는, 스펙트럼 파라미터(LPC파라미터)의 양자화 방법으로서 다단 벡터 양자화(다단VQ)를 이용한다. 다단VQ란, 복수 단의 VQ를 연속적으로 행하는 것으로서, 앞의 단의 양자화 왜곡을 다음 단에서 양자화하는 방법이다. 여기에서는, 양자화비트수가 비교적 많고, 단수도 비교적 많은 6~10단 이상을 상정하여, 다단 벡터 양자화부(102)의 내부구성에 대하여 설명한다.
벡터 양자화부(201-1)는, LPC 분석부(101)에 의하여 얻어진 LPC파라미터, 즉, 부호화 대상(타겟벡터)을 양자화한다. 구체적으로는, 부호장에 격납된 코드벡터와의 거리(양자화 왜곡)를 계산하여, 가장 작은 것의 번호를 구하는 벡터양자화를 행한다. 트리탐색에서는, 거리(양자화 왜곡)가 가장 작은 쪽부터 몇 개의 후보번호를 구하게 된다. 벡터 양자화부(201-1)는, 양자화 왜곡으로서 임시 타겟벡터, 부호후보(트리탐색에서는 번호의 열(후보번호열)이 된다) 및 후보수를 구하고, 구한 임시 타겟벡터, 부호후보 및 후보수를 벡터 양자화부(201-2)에 출력하여, 부호후보를 부호 결정부(202)에도 출력한다.
벡터 양자화부(201-2)는, 벡터 양자화부(201-1)로부터 출력된 임시 타겟벡터(트리탐색에서는 복수 존재하는 경우도 있다)에 대하여, 벡터 양자화부(201-1)와 동일한 양자화를 행하여, 임시 타겟벡터, 부호후보(후보번호열) 및 후보수를 벡터 양자화부(201-3)에 출력하고, 부호후보를 부호 결정부(202)에도 출력한다.
벡터 양자화부(201-3~201-J)는, 각각 벡터 양자화부(201-1)와 동일한 양자화를 행하고, 벡터 양자화부(203-J)는 임시 타겟벡터, 부호후보(후보번호열) 및 후보수를 부호 결정부(202)에 출력한다.
부호 결정부(202)는, 벡터 양자화부(201-1~201-J)로부터 출력된 후보번호열 중 가장 양자화 왜곡이 적은 후보번호열의 번호를 1개의 데이터열에 통합하여, 부호데이터로서 CELP부호화장치(100)의 외부로 보낸다. 또, 다단 벡터 양자화부(102)의 입력인 타겟벡터로부터 최종적인 왜곡을 감산하면, 부호데이터를 이용하여 복호화한 결과 얻어지는 복호화벡터가 된다. 이 복호화벡터로부터, LPC 합성필터(109)에서 사용하는 양자화 LPC파라미터를 구하여, LPC 합성필터(109)로 보낸다.
도 3은, 도 2에 나타낸 벡터 양자화부(201-j)(1=j=J)의 내부구성을 나타내는 블록도이다. 이하, 벡터 양자화부(201-j)(1=j=J)의 내부구성에 대하여 도 3을 이용하여 설명한다.
벡터 양자화부(201-j)에는, 3개의 신호가 입력된다. 하나는, 후보수(j)이며, 이것은, 양자화부(201-j)에서 후보로서 남겨 다음 단의 벡터 양자화부(201-(j+1))에 출력하는, 후보번호열 및 임시 타겟벡터의 수이다. 다음으로, 타겟벡터 또는 임시 타겟벡터(이하, 이들을 통틀어 "임시 타겟벡터"라고 하는 경우가 있다)(j)이며, 이것은, 최초의 부호화 대상(타겟벡터) 또는 단의 도중에서 앞의 벡터 양자화부(201-(j-1))에서 얻어진 부호화 왜곡벡터로서의 임시 타겟벡터이다. 마지막으로, 후보번호열(j)이며, 이것은, 벡터 양자화부(201-j)까지에서 가장 왜곡이 적은 각 벡터 양자화부의 번호열이다. 다만, 타겟벡터는 1개이지만, 임시 타겟벡터(j)와 후보번호열(j)은 복수 존재하는 경우가 있다.
여기에서, 후보수(j)를 K로 두고, 후보수(j-1)를 M으로 둔다. 다만, 벡터 양자화부(201-1)에서는, 타겟벡터가 1개이므로 M=1이다. 또, 마지막 단의 벡터 양자화부(201-J)에서는, 1개의 후보번호열을 구하면 되기 때문에 K=1이면 된다. M은 입력되는 타겟벡터와 후보번호열(j)의 수이며, K는 다음 단의 벡터 양자화부(201-(j+1))에 출력하는 후보수를 의미하는 것에 주의해야 한다.
왜곡계산 및 부호장탐색부(301)는, M개의 임시 타겟벡터 전부와, 부호장(302)에 격납된 모든 코드벡터와의 매칭(유클리드거리(벡터로서 요소마다 차분을 취하여 2제곱합을 구한다)에 의한 거리계산이 일반적이다)을 행하고, 거리(양자화 왜곡)가 가장 작은 쪽부터 K개의 후보를 탐색하여, 이들 코드번호를 구한다. 이 때, 기본이 된 번호열도 결정된다. 그리고, 후보번호열(j)을 참조하여 기본의 번호열에 후보의 코드번호를 접속하여 K개의 후보번호열(j+1)을 산출하고, 다음 단의 벡터 양자화부(201-(j+1))에 출력한다. 또, 후보수(j), 후보의 코드번호의 코드벡터, 양자화대상의 타겟벡터를 임시타겟 산출부(304)에 출력한다. 또, 후보수(j)와 부호화 왜곡 중으로부터 1개의 값을 후보수 결정부(303)에 출력한다.
또한, 당해 벡터 양자화부(201-j)가 최초의 단의 벡터 양자화부(201-1)인 경우는, 후보수(j) 및 후보번호열(j)은 벡터 양자화부(201-1)의 내부에 미리 설정되어 있으며, 타겟벡터만이 입력된다. 또, 당해 벡터 양자화부(201-j)가 마지막 단의 벡터 양자화부(201-J)인 경우는, 후보수는 1이며, 가장 거리(양자화 왜곡)가 작아진 번호를 타겟벡터에 대응하는 후보번호열에 접속하여, 후보번호열(j+1)로서 부호 결정부(202)에 출력할 뿐이며, 후보수 결정부(303) 및 임시타겟 산출부(304)를 기능시키지 않는다.
왜곡계산 및 부호장탐색부(301)의 구체적인 처리예를 이하에 나타낸다. j=4, M=4, K=3, 벡터길이를 L로 하고, 타겟(여기에서는 임시 타겟벡터)은 xi 0, xi 1, xi 2, xi 3, 후보번호열은, j=4인 것으로부터 지금까지 사이즈 64(6비트)의 부호장을 이용한 벡터 양자화부가 3단 있었다고 하고, (5, 12, 31)(5, 12, 48)(31, 11, 57)(31, 3, 18)의 4열로 한다. 이 4열의 후보열의 각각이 상기 4개의 임시 타겟벡터와 1대1의 관계에 있다. 코드벡터는 Ci m으로 한다. m은 코드벡터의 번호로 한다. 양자화 왜곡(En , m)은, 이하의 식 (5)로 나타난다.
[수 5]
Figure pct00005
...(5)
그리고, 이 양자화 왜곡(En , m)이 가장 작아지는 상위 3개의 코드번호를 구한다. 구한 결과, 상위 3개였던 것은, (1) 임시 타겟벡터가 0일 때의 코드번호 35, (2) 임시 타겟벡터가 0일 때의 코드번호 8, (3) 임시 타겟벡터가 3일 때의 코드번호 52였다고 한다. 상기 후보번호열을 참조하여 마지막에 상기 코드번호를 매기면, 후보번호열(j+1)로서, 다음에 보내지는 3개의 번호열은, (5, 12, 31, 35), (5, 12, 31, 8), (31, 3, 18, 52)가 된다. 또한, (xi 0, Ci 35), (xi 0, Ci 8), (xi 3, Ci 52)의 3세트의 임시 타겟벡터와 코드벡터를 임시타겟 산출부(304)에 출력한다. 또한, 후보수 3과 상위 3개 중에서 1개의 거리(양자화 왜곡)를 후보수 결정부(303)에 출력한다. 다만, 본 실시형태에 있어서는, 3개의 거리 중 어느 것을 출력해도 된다. 어떤 것을 출력해도 성능에 큰 차이는 없기 때문이다.
후보수 결정부(303)는, 왜곡계산 및 부호장탐색부(301)로부터 출력된 후보수(j)와 거리(양자화 왜곡)를 참조하여, 다음 단의 벡터 양자화부(201-(j+1))에서 이용되는 후보수(j+1)를 결정하여 벡터 양자화부(201-(j+1))에 출력한다.
임시타겟 산출부(304)는, 왜곡계산 및 부호장탐색부(301)로부터 출력된 타겟과 코드벡터의 세트를 참조하여, 타겟벡터로부터 코드벡터를 감산하여 K개의 임시 타겟벡터(j+1)를 산출한다. 상기 구체예에서는, (xi 0-Ci 35), (xi 0-Ci 8), (xi 3-Ci 52)의 3개의 벡터가 임시 타겟벡터(j+1)가 된다.
다음으로, 상술한 후보수 결정부(303)에 대하여 알고리즘의 효과를 포함하여 상세하게 설명한다. 먼저, 트리탐색(VQ)에서 이용되는 N베스트서치에 있어서는, 단수가 많은 경우, 후보수(N)에 비례하여 계산량이 N배로 증가해 버리고, 반대로, N을 작게 하면 양자화 성능이 악화된다. 따라서, 본 발명자는, 트리탐색을 이용한 다단VQ의 시뮬레이션 실험을 반복하여 행하고, 트리탐색의 성능분석을 행하여, 이하의 4개의 경향을 추출했다.
즉, (1) N베스트서치에 있어서의 후보수(N)는 단마다 증가 또는 불변으로 해도 계산량정도의 성능은 얻을 수 없다. 후보를 복수 남기는 것이 양자화 성능에 효과가 있는 것은, 다단양자화에 있어서의 최초의 단에 있어서이다. (2) 단이 1개 진행되었을 때에, 서치의 후보수를 급격하게 낮추면, 양자화 성능이 크게 떨어진다. (3) N=2와 N=1은 절대적인 차가 있어, 단수가 많은 경우는 N=2로 대략 충분한 양자화 성능을 얻을 수 있다. (4) 단수가 복수 진행된 후에 부호화 왜곡이 작아지지 않는 경우에는, 최종적인 아웃라이어(양자화오차가 소정 값 이상인 비율)가 악화될 가능성이 증가한다.
상기 경향을 감안하여, 본 발명자는 이하의 3개의 알고리즘을 조합하는 것에 의한 트리탐색을 발안했다. 즉, 이하의 수순에 따른다. (수순 1) 1단째는 미리 지정된 후보수(N)만 남기고 다음 단으로 진행된다. (수순 2) 2단째부터는 단이 진행될 때마다 후보수를 N-1, N-2로 1개씩 줄여 나간다. (수순 3) 후보수가 미리 정해진 값(P) 이하가 되었을 경우, 그때마다, 양자화 왜곡을 평가하여, 소정의 임계값보다 큰 경우는 다음 단의 후보수를 P, 임계값 이하의 경우는 다음 단의 후보수를 미리 정해진 P보다 작은 값(Q)으로 한다. 이하의 설명에 있어서는, P와 Q의 예로서, P=3, Q=2로 하여 설명을 행한다. 다만, 이 수치는, 계산량에 여유가 있는 경우는, 더욱 큰 수치여도 된다. 그 경우에는 보다 부호화 왜곡을 작게 할 수 있다.
이러한 알고리즘을 적용한 것이 후보수 결정부(303)이며, 이 결과, 처음에는 후보를 많게 하고 단이 진행될 때마다 1개씩 줄여 나가는 것(즉 (수순 2))에 의하여, 최초의 부분에서 정확한 후보를 선택할 수 있고, 또, 양자화 성능을 악화시키는 일 없이 가능한 한 빨리 최소한의 후보수에 도달할 수 있으며, 또한 적은 계산량으로 충분한 양자화 성능을 얻을 수 있다. 또, 후보수가 3(=P) 이하가 되었을 경우에는, 그때마다, 양자화 왜곡을 평가하여, 크면 후보수를 3(=P)으로 늘리고, 충분히 작으면 후보수를 2(=Q)로 줄임으로써(즉 (수순 3)), 충분히 작은 부호화 왜곡에 최저한의 계산량으로 도달하도록 제어할 수 있어, 적은 계산량으로 충분한 양자화 성능을 얻을 수 있다.
다음으로, 후보수 결정부(303)에 있어서의 후보수 결정수순에 대하여 도 4를 이용하여 설명한다. 이하의 설명에서는, 후보수(j+1)를 KK로 나타낸다. 후보수 결정부(303)에 입력되는 것은, 왜곡계산 및 부호장탐색부(301)로부터 얻어지는, 후보수(j)(K), 거리(양자화 왜곡)이다. 단수(J)에 대해서는 후보수 결정부(303)에서 파악하고 있는 것으로 한다. 또, K의 초기치, 거리의 기준치는 본 양자화를 시작하기 전에 미리 정해져 있는 것으로 한다. 또한, 도 4에 있어서는 거리의 기준치로서 예를 들면 50000으로 하지만, 이것은 다른 값이 적당한 경우도 있을 수 있다. 벡터의 차원 또는 요소의 값의 크기 등에 따라 적절한 값을 정해 두면 된다.
먼저, 스텝(이하, "ST"로 생략한다)(401)에서는, 단번호 j=1, 즉, 벡터 양자화부(201-1)인지 여부가 판정되어, 단번호 j=1인(YES) 경우는 ST402로 이행하고, 단번호 j=1이 아닌(NO) 경우는 ST405로 이행한다.
ST402에서는, 후보수(K)(이 경우, K의 초기치)를 입력으로 하여, 총단수가 7보다 큰지 여부를 판정하며, 총단수가 7보다 큰 경우는 ST403로 이행하고, 총단수가 7보다 크지 않은 경우는 ST404로 이행한다. 다만, 이 "7"이라는 수치는 물론 조건에 따라 다른 값이 적절한 경우도 있을 수 있다. 총단수 또는 후보수의 초기치 등에 따라 적절한 값을 미리 정해 두면 된다.
ST403에서는, KK=K-1로 하고, 또, ST404에서는, KK=K로 한다.
ST405에서는, ST401에 있어서 단번호 j=1이 아니다(벡터 양자화부(201-1)가 아니다)라고 판정되었기 때문에, KK=K-1로 하고, ST406에서는, 단번호 j=4 이상이며, 또한, 거리(양자화 왜곡)가 기준치를 넘고 있는지 여부를 판정하여, 이 조건을 만족하는(YES) 경우는 ST407로 이행하고, 이 조건을 만족하지 않는(NO) 경우는 ST409로 이행한다. 또한, 여기에서는, 단번호 j=4 이상으로 설정하고 있지만 이것도 다른 값이 적절한 경우도 있을 수 있다.
ST407에서는, KK가 3(=P)보다 작은지 여부를 판정하여, KK가 3(=P)보다 작은(YES) 경우는 ST408로 이행하여 KK=3으로 하고, KK가 3(=P)보다 작지 않은(NO) 경우는 ST411로 이행한다.
또, ST409에서는, KK가 2(=Q)보다 작은지 여부를 판정하여, KK가 2(=Q)보다 작은(YES) 경우는 ST410으로 이행하여 KK=2로 하고, KK가 2(=Q)보다 작지 않은(NO) 경우는 ST411로 이행한다.
이와 같이 ST406~ST410에서는, 어느 정도 양자화가 진행된 단계에서 거리(양자화 왜곡)가 충분히 작으면 후보수를 작게 설정하고, 거리가 아직 큰 경우에는 후보수를 보다 크게 하여 종합적 양자화 왜곡을 보다 작게 한다는 효과를 얻을 수 있도록 한 것이다. 최저 후보수의 "2"(=Q)를 확보하면서 후보수 "3"(=P)을 사용하여 보다 종합적 양자화 왜곡을 작게 하는 알고리즘이다. 본 발명자의 양자화 실험에 있어서는, 이 거리의 판정에 의하여 아웃라이어(양자화 왜곡이 소정의 큰 값 이상이 되는 비율)를 저감시킬 수 있는 것을 확인하고 있다.
ST411에서는, 단번호 j=J, 즉, 최종단인지 여부를 판정하여, 단번호 j=J인(YES) 경우는 ST412로 이행하고, 단번호 j=J가 아닌(NO) 경우는 이 단에 있어서의 후보수 결정수순을 종료한다.
ST412에서는, KK=1로 설정하여, 최종단에 있어서의 후보수결정 처리를 종료한다.
여기에서, 본 발명의 유효성을 나타내기 위하여, CELP의 ISF양자화에 적용한 양자화 실험에 대하여 나타낸다. 부호기는 CELP를 기본으로 한 것으로, 비트레이트는 약 24kbps, 이용한 데이터는 광대역의 주파수의 일본어 40 샘플이다. 양자화한 것은 ISF(ImmittanceSpectral Frequency)의 16차원의 벡터이다. 베이스가 되는 다단VQ는 N베이스의 트리탐색이며 6단 이상의 단수가 있다. 본 발명은 동일한 N을 초기의 후보수로 하고 있다. 양자화 실험결과를 이하의 표 1에 나타낸다.
MAXwMOPS S/N S/Nseg SD Outlier>2dB
베이스 45.389 14.51 13.00 1.1604 2.76%
본 발명 43.718 14.49 13.00 1.1706 2.97%
상기 표 1로부터, 최대 프레임의 계산량을 약 1.7wMOPS(weitghed Mega OparationPer Second) 삭감할 수 있어, 계산량을 크게 삭감할 수 있음을 알 수 있다. 또, S/N비(Signal/Noise ratio)에서는 거의 변함이 없어, 객관치에서는 합성음은 대부분 열화되지 않음을 알 수 있다. ISF의 왜곡을 SD(Spectral Distance)로 비교해도 0.01dB라는 미량의 열화이며, 2dB 이상의 비율을 보는 아웃라이어에서는 열화는 0.2%뿐이다. 이것은 500프레임에 1회라는 비율이며, 대부분 열화가 없는 것을 나타내고 있다. 또한, 본 발명에 의한 처리의 증가는, 후보수의 결정뿐이며, 그 계산량은 경미하다는 점에서, 알고리즘 전체에 주는 영향도 작다.
이와 같이, 실시형태 1에 의하면, 트리탐색을 이용한 다단VQ에 있어서, 1단째는 미리 지정된 후보수(N)로 하고, 2단째 이후에서는 단이 진행될 때마다 후보수를 1개씩 줄여, 후보수가 3 이하가 되었을 경우는, 그때마다, 양자화 왜곡을 평가하여 소정의 임계값보다 큰 경우는 다음 단의 후보수를 3(=P), 임계값 이하의 경우는 다음 단의 후보수를 2(=Q)로 한다. 이로써, 최초의 부분에서 정확한 후보를 선택할 수 있고, 또, 양자화 성능을 악화시키는 일 없이 가능한 한 빨리 최소한의 후보수에 도달할 수 있으며, 또한 적은 계산량으로 충분한 양자화 성능을 얻을 수 있다. 또, 최저한의 계산량으로 충분히 작은 부호화 왜곡에 도달하도록 제어할 수 있다.
(실시형태 2)
본 발명의 실시형태 2에 관한 CELP부호화장치의 구성은, 실시형태 1의 도 1에 나타낸 구성과 동일하며, 벡터 양자화부(201-j)의 후보수 결정부(303)의 기능이 상이할 뿐이므로, 필요에 따라서 도 1~도 3을 원용하여 설명한다.
도 5는, 본 발명의 실시형태 2에 관한 후보수 결정부(303)에 있어서의 후보수 결정수순을 나타내는 플로우도이다. 이하, 후보수 결정수순에 대하여 도 5를 이용하여 설명한다. 단, 도 5에 있어서, 도 4와 공통되는 부분에는 도 4와 동일한 부호를 붙이고 중복되는 설명은 생략한다.
또, 이하의 설명에서는, 실시형태 1의 도 4와 동일한 조건으로 한다. 즉, 후보수(j+1)를 KK로 나타낸다. 후보수 결정부(303)에 입력되는 것은, 왜곡계산 및 부호장탐색부(301)로부터 얻어지는, 후보수(j)(K), 거리(양자화 왜곡)이다. 또, 단수(J)에 대해서는 후보수 결정부(303)에서 파악하고 있는 것으로 한다. 또, K의 초기치, 거리의 기준치는 본 양자화를 시작하기 전에 미리 정해져 있는 것으로 한다. 다만, 도 5에 있어서는 거리의 기준치로서 예를 들면 50000으로 하지만, 이것은 다른 값이 적당한 경우도 있을 수 있다. 벡터의 차원 또는 요소의 값의 크기 등에 따라 적절한 값을 정해 두면 된다.
ST501에서는, 단번호 j=3 이상인지, 또는 KK=3 이하인지 여부를 판정하여, 이 조건을 만족하는(YES) 경우는 ST502로 이행하고, 이 조건을 만족하지 않는(NO) 경우는 ST411로 이행한다.
ST502에서는, 거리(양자화 왜곡)가 기준치를 넘고 있는지 여부를 판정하여, 넘고 있는(YES) 경우는 ST407로 이행하고, 넘지 않는(NO) 경우는 ST409로 이행한다.
이와 같이, 실시형태 2에 의하면, 양자화 왜곡을 평가하기 전에 후보수(KK)가 충분히 작아진 것을 확인함으로써, 후보수(KK)가 충분히 작아지면 양자화 왜곡을 이용한 후보수제어를 바로 행할 수 있어, 가능한 한 적은 계산량으로 충분한 양자화 성능을 얻을 수 있다.
또한, 상기 각 실시형태에서는, 도 3에 나타낸 바와 같이, 후보수 결정부(303)를 왜곡계산 및 부호장탐색부(301)의 후단에 형성하고 있지만, 후보수 결정부(303)를 왜곡계산 및 부호장탐색부(301)의 전단에 형성해도 된다. 이 경우, 후보수 결정부(303)는, 앞의 단의 벡터 양자화부부터의 거리(양자화 왜곡) 및 후보수를 사용할 수 있어, 동일한 효과가 얻어지는 것은 분명하다.
또, 상기 각 실시형태에서는, CELP에 있어서의 예를 나타냈지만, 본 발명은 벡터양자화에 이용할 수 있는 발명이므로, CELP에 한정되지 않는 것은 분명하다. 예를 들면, MDCT(Modified Discrete Cosine Transform) 또는 QMF(Quadrature Mirror Filter)를 이용한 스펙트럼의 양자화에도 이용할 수 있어, 대역확장기술에 있어서의 저주파수영역의 스펙트럼 중으로부터 비슷한 스펙트럼 형상을 탐색하는 알고리즘에도 응용할 수 있다. 또한, 본 발명은 LPC 분석을 이용하는 부호화방식 모두에 적용할 수 있다.
또, 상기 각 실시예의 형태에서는, ISF를 부호화하는 예를 나타냈지만, 본 발명은 이것에 한정되지 않으며, ISP(ImmittanceSpectrum Pairs), LSP(Lin Spectrum Pairs), PARCOR(PARtial autoCORrelation) 등의 파라미터를 양자화하는 경우에 적용할 수 있다. 실시형태에 있어서의 ISF 양자화 대신에 다른 양자화법을 이용하면 되기 때문이다.
또, 상기 각 실시형태에서는, CELP의 스펙트럼 파라미터의 트리탐색(VQ)에 대하여 본 발명을 적용했지만, 다른 파라미터 벡터의 양자화에서도 본 발명이 유효한 것은 분명하다. 파라미터의 성질이 본 발명에 영향을 주지 않기 때문이다.
또, 상기 각 실시형태에서는, 왜곡계산 및 부호장탐색부(301)에 유클리드거리를 이용했지만, 이것은 가중 유클리드거리 혹은 시가지거리(절대치의 합) 등, 다른 거리척도이어도 된다. 본 발명은, 후보수 결정부(303)의 알고리즘에 있고, 거리척도는 본 발명과 관계가 없기 때문이다.
또, 상기 각 실시형태에서는, 부호기에 응용한 경우를 나타냈지만, 음성인식 또는 화상인식 등의 패턴매칭에 이용되는 트리탐색에도 본 발명은 응용할 수 있다. 본 발명은, 트리탐색의 후보수의 결정에 관한 것으로, 알고리즘 전체의 목적에 영향을 주지 않기 때문이다.
또, 상기 각 실시형태에서 설명한 부호화장치는, 통신단말장치 혹은 기지국장치에 탑재하여 이용하는 것이 가능하다.
또, 상기 각 실시형태에서는, 거리(양자화 왜곡)와 비교하는 기준치를 미리 결정된 상수로 하고 있지만, 이것은 각 단(단번호)에 따라 상이한 값이어도 되는 것은 분명하다. 본 발명은 기준치를 구속하는 것은 아니기 때문이다. 각 단(단번호)에 있어서 기준치를 바꿈으로써, 보다 효율적인 탐색을 실현할 수 있다.
또, 상기 각 실시형태에서는, 후보수의 제어에 "3과 2"라는 미리 정해진 수치를 이용하고 있지만, 이것도 "4와 3", "4와 2" 등의 수치를 이용하여도 된다. 또, 이 수치를 각 단(단번호)에서 상이하게 해도 된다. 이들의 수치는, 계산량에 여유가 있는 경우 또는, 보다 높은 성능이 필요한 경우 등, 경우에 따라 설정하면 된다.
또, 실시형태 2에서는, j와 KK의 판정에 각각 "3과 3"이라는 미리 정해진 수치(정수)를 이용하고 있지만, 이것도 "2와 2", "2와 3", "4와 3", "2와 4", "4와 4"또는 "5와 4" 등으로 바꾸어도 된다. 또 각 단(단번호)에서 상이하게 해도 된다. 이들 수치는, 계산량에 여유가 있는 경우, 보다 높은 성능이 필요한 경우 등, 경우에 따라 설정하면 된다.
또, 상기 각 실시형태에서는, 본 발명을 하드웨어로 구성하는 경우를 예를 들어 설명했지만, 본 발명은 하드웨어와의 연계에 있어서 소프트웨어에 의하여 실현되는 것도 가능하다.
또, 상기 각 실시형태의 설명에 이용한 각 기능블록은, 전형적으로는 집적회로인 LSI로서 실현된다. 이들은 개별적으로 1칩화되어도 되고, 일부 또는 전부를 포함하도록 1 칩화되어도 된다. 여기에서는, LSI로 했지만, 집적도의 차이에 따라, IC, 시스템LSI, 슈퍼LSI, 울트라LSI라고 호칭되는 경우도 있다.
또, 집적회로화의 수법은 LSI에 한정되는 것은 아니고, 전용회로 또는 범용프로세서에서 실현되어도 된다. LSI 제조 후에, 프로그램하는 것이 가능한 FPGA(Field Programmable Gate Array) 또는, LSI 내부의 회로셀의 접속 또는 설정을 재구성 가능한 리컨피규러블 프로세서를 이용하여도 된다.
나아가서는, 반도체 기술의 진보 또는 파생되는 다른 기술에 의하여 LSI로 치환되는 집적회로화의 기술이 등장하면, 당연히, 그 기술을 이용하여 기능블록의 집적화를 행해도 된다. 바이오기술의 적용 등이 가능성으로서 있을 수 있다.
2010년 9월 17일 출원된 일본 특허출원 2010-210116 및 2010년 10월 13일 출원된 일본 특허출원 2010-230537의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시내용은, 모두 본원에 원용된다.
산업상의 이용 가능성
본 발명에 관한 양자화 장치 및 양자화 방법은, 음성부호화장치 등에 적용할 수 있다.
101 LPC 분석부
102 다단 벡터 양자화부
103 적응 부호장
104 고정 부호장
105 게인 부호장
106, 107 승산기
108, 110 가산기
109 LPC 합성필터
111 청감 가중부
112 왜곡 최소화부
201-1~201-J 벡터 양자화부
202 부호 결정부
301 왜곡계산 및 부호장탐색부
302 부호장
303 후보수 결정부
304 임시타겟 산출부

Claims (6)

  1. 트리탐색을 이용하여 다단양자화를 행하는 양자화 장치로서,
    부호화 대상의 1개 이상의 타겟의 각각과 부호장에 격납된 코드벡터와의 매칭을 행하여, 양자화 왜곡이 가장 작은 쪽부터 1개 이상의 후보를, 전단에 있어서 결정된, 혹은 미리 설정된 후보수만큼 구하는 탐색수단과,
    상기 후보에 대하여, 상기 타겟으로부터 상기 코드벡터를 감산하여 양자화 오차 벡터를 산출하는 산출수단과,
    상기 전단에 있어서 결정된 후보수에 근거하여 다음 단에서 이용할 후보수를 결정하는 후보수 결정수단
    을 구비하는 양자화 장치.
  2. 청구항 1에 있어서,
    상기 후보수 결정수단은, 상기 전단에 있어서 결정된 후보수에서 1만큼 줄인 후보수를 다음 단에서 이용하는 것을 결정하는 양자화 장치.
  3. 청구항 1에 있어서,
    상기 후보수 결정수단은, 상기 전단에 있어서 결정된 후보수가 미리 지정된 값(P) 이하인 경우, 상기 양자화 왜곡이 소정의 임계값보다 큰 경우는 후보수(P)를 다음 단에서 이용하는 것을 결정하고, 상기 양자화 왜곡이 상기 소정의 임계값 이하인 경우는 후보수로서 미리 지정된 P보다 작은 값(Q)을 다음 단에서 이용하는 것을 결정하는 양자화 장치.
  4. 청구항 1에 있어서,
    상기 탐색수단은, 1단째인 경우, 미리 지정된 후보수만큼 양자화 왜곡이 가장 작은 쪽부터 후보를 구하는, 양자화 장치.
  5. 청구항 1에 있어서,
    상기 후보수 결정수단은, 현재의 단수가 소정의 단수 이상이거나, 또는 후보수가 소정의 후보수(P) 이하로서,
    상기 양자화 왜곡이 소정의 임계값보다 크고, 또한, 소정의 후보수(R)보다 후보수가 작은 경우, 후보수(R)를 다음 단에서 이용하는 것을 결정하고,
    상기 양자화 왜곡이 상기 소정의 임계값 이하이며, 또한, 상기 후보수(R)보다 작은 소정의 후보수(Q)보다 후보수가 작은 경우, 후보수(Q)를 다음 단에서 이용하는 것을 결정하는
    양자화 장치.
  6. 트리탐색을 이용하여 다단양자화를 행하는 양자화 방법으로서,
    부호화 대상의 1개 이상의 타겟의 각각과 부호장에 격납된 코드벡터와의 매칭을 행하여, 양자화 왜곡이 가장 작은 쪽부터 1개 이상의 후보를, 1단째에서는, 미리 지정된 후보수만큼 구하고, 2단째 이후에서는, 전단에 있어서 결정된 후보수만큼 구하며,
    상기 후보에 대하여, 상기 타겟으로부터 상기 코드벡터를 감산하여 양자화 오차 벡터를 산출하고,
    상기 전단에 있어서 결정된 후보수에 근거하여 다음 단에서 이용할 후보수를 결정하는
    양자화 방법.
KR1020137006545A 2010-09-17 2011-09-16 양자화 장치 및 양자화 방법 KR20130112869A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2010210116 2010-09-17
JPJP-P-2010-210116 2010-09-17
JPJP-P-2010-230537 2010-10-13
JP2010230537 2010-10-13
PCT/JP2011/005244 WO2012035781A1 (ja) 2010-09-17 2011-09-16 量子化装置及び量子化方法

Publications (1)

Publication Number Publication Date
KR20130112869A true KR20130112869A (ko) 2013-10-14

Family

ID=45831266

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137006545A KR20130112869A (ko) 2010-09-17 2011-09-16 양자화 장치 및 양자화 방법

Country Status (11)

Country Link
US (1) US9135919B2 (ko)
EP (1) EP2618331B1 (ko)
JP (1) JP5687706B2 (ko)
KR (1) KR20130112869A (ko)
CN (1) CN103081007A (ko)
BR (1) BR112013006103A2 (ko)
CA (1) CA2810995A1 (ko)
RU (1) RU2013111526A (ko)
TW (1) TW201220715A (ko)
WO (1) WO2012035781A1 (ko)
ZA (1) ZA201301886B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011126340A2 (ko) * 2010-04-08 2011-10-13 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN104918046B (zh) * 2014-03-13 2019-11-05 中兴通讯股份有限公司 一种局部描述子压缩方法和装置
CN110764696B (zh) * 2019-09-26 2020-10-16 开放智能机器(上海)有限公司 向量信息存储及更新的方法、装置、电子设备及存储介质
KR20240033374A (ko) * 2022-09-05 2024-03-12 서울대학교산학협력단 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07120958B2 (ja) * 1986-04-04 1995-12-20 三菱電機株式会社 木探索ベクトル量子化器
JPS62234432A (ja) * 1986-04-04 1987-10-14 Hitachi Ltd 双方向光伝送方法とその装置
JP3114197B2 (ja) * 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
US5271089A (en) * 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3296363B2 (ja) * 1991-04-30 2002-06-24 日本電信電話株式会社 音声の線形予測パラメータ符号化方法
US5774839A (en) * 1995-09-29 1998-06-30 Rockwell International Corporation Delayed decision switched prediction multi-stage LSF vector quantization
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
JP3973789B2 (ja) * 1999-03-09 2007-09-12 三菱電機株式会社 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
JP2002229597A (ja) * 2000-11-30 2002-08-16 Matsushita Electric Ind Co Ltd Lpcパラメータのベクトル量子化装置
AU2002218501A1 (en) * 2000-11-30 2002-06-11 Matsushita Electric Industrial Co., Ltd. Vector quantizing device for lpc parameters
JP3428595B2 (ja) * 2002-06-03 2003-07-22 日本電気株式会社 音声符号化方式
WO2011126340A2 (ko) * 2010-04-08 2011-10-13 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
RU2013111526A (ru) 2014-10-27
BR112013006103A2 (pt) 2019-09-24
TW201220715A (en) 2012-05-16
US9135919B2 (en) 2015-09-15
EP2618331A4 (en) 2013-10-09
US20130173263A1 (en) 2013-07-04
CN103081007A (zh) 2013-05-01
CA2810995A1 (en) 2012-03-22
WO2012035781A1 (ja) 2012-03-22
ZA201301886B (en) 2013-11-27
EP2618331B1 (en) 2016-08-31
EP2618331A1 (en) 2013-07-24
JP5687706B2 (ja) 2015-03-18
JPWO2012035781A1 (ja) 2014-01-20

Similar Documents

Publication Publication Date Title
US8306007B2 (en) Vector quantizer, vector inverse quantizer, and methods therefor
US20110004469A1 (en) Vector quantization device, vector inverse quantization device, and method thereof
US8438020B2 (en) Vector quantization apparatus, vector dequantization apparatus, and the methods
RU2519027C2 (ru) Устройство векторного квантования, устройство векторного обратного квантования и способы для этого
JP5687706B2 (ja) 量子化装置及び量子化方法
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
KR101369064B1 (ko) 음성 부호화 장치 및 음성 부호화 방법
EP1187337A1 (en) Speech coder, speech processor, and speech processing method
JPWO2008001866A1 (ja) 音声符号化装置及び音声符号化方法
JP3428595B2 (ja) 音声符号化方式
WO2012053146A1 (ja) 符号化装置及び符号化方法
JP3335650B2 (ja) 音声符号化方式
TW201329960A (zh) 量化裝置及量化方法
JP2013055417A (ja) 量子化装置及び量子化方法
JPH09127997A (ja) 音声符号化方法及び装置
JPH09127993A (ja) 音声符号化方法及び音声符号化装置
JP2013068847A (ja) 符号化方法及び符号化装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid