KR101056462B1 - Audio signal quantization apparatus and method - Google Patents

Audio signal quantization apparatus and method Download PDF

Info

Publication number
KR101056462B1
KR101056462B1 KR20090060030A KR20090060030A KR101056462B1 KR 101056462 B1 KR101056462 B1 KR 101056462B1 KR 20090060030 A KR20090060030 A KR 20090060030A KR 20090060030 A KR20090060030 A KR 20090060030A KR 101056462 B1 KR101056462 B1 KR 101056462B1
Authority
KR
Grant status
Grant
Patent type
Prior art keywords
vector
code
klt
quantization
unit
Prior art date
Application number
KR20090060030A
Other languages
Korean (ko)
Other versions
KR20110002533A (en )
Inventor
김무영
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Abstract

음성신호에 대한 양자화 장치는 (a) 입력되는 음성신호를 KLT 도메인으로 변환하는 KLT부, (b) 상기 KLT 도메인으로 변환된 음성신호의 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 표현하는 격자 벡터(lattice vector) 코드 벡터를 적응적으로 형성하여, 상기 음성신호를 상기 코드 벡터로 변환하는 격자 벡터 양자화부, (c) 적응적으로 선택된 무손실 코드북을 참조하여 상기 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어로 변환하고, 상기 부호어에 대응하는 인덱스를 전송하는 무손실 부호화부, (d) 상기 무손실 부호화부로부터 수신한 상기 인덱스에 기초하여, 상기 부호어를 상기 코드 벡터에 대응하는 심볼로 역변환하는 무손실 복호화부 및 (e) 상기 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 Quantization apparatus for speech signals includes: (a) form a KLT unit for converting the audio signal input to the KLT domain, (b) regions that may be present in the probability density function of the code vector distribution of the audio signal converted to the KLT domain grid the lattice vector is referred to (lattice vector) lossless code book to form a code vector adaptively, lattice vector quantization unit for converting the speech signal to the code vector, (c) adaptively selected for expression in the said code vector the length of the converted language and other symbols according to the probability of occurrence of a code vector, and based on the above index received from the lossless encoder for transmitting the index, (d) the lossless coding unit corresponding to the code word, the said code words lossless inverse transform to a symbol corresponding to the code vector decoding unit, and (e) a region which may be a probability density function of the code vector distribution 격자 형태로 형성하여 상기 역변환된 심볼을 이산화된 코드 벡터로 출력하는 격자 벡터 복호화부를 포함한다. The said inverse transform symbols by forming a grid comprises the grid vector decoding and outputting a discrete code vector.
Figure R1020090060030
음성신호, 격자, 양자화 The audio signal, and grid, quantizing

Description

음성신호 양자화 장치 및 방법{APPARATUS AND METHOD FOR QUANTIZING SPEECH SIGNAL} Audio signal quantization apparatus and method {APPARATUS AND METHOD FOR QUANTIZING SPEECH SIGNAL}

본 발명은 음성신호 양자화 장치 및 방법에 관한 것으로서, 보다 상세하게는, KLT 도메인으로 변환된 음성신호에 대한 코드 벡터의 분포에 관한 확률 밀도 함수가 존재하는 영역을 격자 형태로 형성한 후, 선택된 코드 벡터를 무손실 압축함으로써 음성신호에 대한 높은 부호화 효율을 제공할 수 있는 엔트로피 제한적 벡터 양자화 장치 및 방법에 관한 것이다. The present invention provides a speech signal quantization apparatus and method for such, more particularly, KLT domain by converting the voice signal for code vectors distributed on the probability density function exists that area the grid to form after the selected code the vector by a lossless compression relates to the entropy-limiting vector quantization apparatus and method that can provide high coding efficiency on a speech signal.

용량이 큰 멀티미디어 데이터의 효율적인 압축을 위해, 해상도 제한적 양자화(Resolution-Constrained Quantization, 이하 RCQ라고 함)와 엔트로피 제한적 양자화(Entropy-Constrained Quantization, 이하 ECQ라고 함)의 두 가지의 주요한 소스 부호화 패러다임(paradigm)이 사용되어 왔다. For capacity and efficient compression of a large multimedia data, the resolution-limiting quantizer (Resolution-Constrained Quantization, hereinafter referred to RCQ) and entropy-limiting quantizer two major source coding paradigm of (Entropy-Constrained Quantization, hereinafter referred to as ECQ) (paradigm ) it has been used.

RCQ는 주어진 고정 비트율(bit-rate) 제한 하에서, 평균 왜곡(mean distortion)을 최소화하는 것을 목적으로 한다. RCQ is an object of the present invention to minimize the under given constant bit rate (bit-rate) Limited, average distortion (mean distortion). 이때, 상기 평균 왜곡은 충분히 최소화 될 수 있더라도, 어떤 경우에 있어서는 왜곡 이상값(outliers)을 야기하는 대형의 Voronoi 셀(cell)들이 생기는 문제가 있다. In this case, the average distortion is even can be sufficiently minimized, there is a problem Voronoi cell (cell) of the large to cause distortion outliers (outliers) in some cases are produced.

한편, RCQ 소스 부호화 패러다임의 일종으로서 KLT(Karhunen-Loeve Transform, 이하 KLT라고 함) 기반의 분류 벡터 양자화(Classified Vector Quantization, 이하 KLT-CVQ라고 함) 방법이 있다. On the other hand, (called Classified Vector Quantization, below KLT-CVQ) as a kind of RCQ source coding paradigm, KLT (Karhunen-Loeve Transform, hereinafter referred to as KLT) classified vector quantization based on a method. 상기 KLT 기반의 CVQ는 벡터 양자화의 장점을 충분히 활용하여 멀티미디어 데이터를 효율적으로 압축할 수 있는 장점이 있지만, RCQ와 마찬가지로 대형의 Voronoi 셀(cell)에 의한 왜곡이 발생하는 문제가 있다. The KLT CVQ based on, but the advantage of the full use of the advantages of the vector quantization to efficiently compress multimedia data, there is a problem in that the distortion due to the large Voronoi cell (cell) occurs as in the RCQ.

또한, 기존에 알려진 음성신호에 대한 벡터 양자화 기술로는 음성신호의 직접적인 벡터 양자화(Direct Vector Quantization, 이하 DVQ라고 약함)와 코드 여기 선형 예측(Code-Excited Linear Prediction, 이하 CELP라고 약함) 코딩방식에 의한 벡터 양자화가 있다. Further, in a vector quantization technology for the audio signal the known are (weak called Direct Vector Quantization, below DVQ) direct vector quantization of the audio signal and the code excited linear prediction (Code-Excited Linear Prediction, referred to as CELP weak) coding scheme a vector quantization by.

상기 음성 신호의 통계치(statistic)가 주어질 경우에 DVQ는 가장 높은 코딩 효율(highest coding efficiency)을 얻을 수 있다. If the statistic (statistic) of the voice signal is given DVQ can be obtained with the highest coding efficiency (highest coding efficiency). 그러나, 음성 신호의 시변 신호 통계치(time-varying signal statistic)가 다량의 코드북(a very large number of codebooks)을 요구하므로 DVQ는 관리하기 어려운(unmanageable) 코드북 저장이 요구된다. However, the time-varying signal statistics (time-varying signal statistic) of the speech signal requires a large amount of codebook (a very large number of codebooks) so DVQ is difficult to manage (unmanageable) codebook storage is required.

CELP는 단일 코드북(single codebook)을 사용한다. CELP uses a single codebook (single codebook). 따라서 CELP는 DVQ와 같이 많은 저장용량이 요구되지는 않는다. Thus, CELP does not require a lot of storage capacity, such as DVQ. CELP는 입력되는 음성신호에서 선형 예측(Linear Prediction, 이하 LP라고 약함) 계수들을 추출하고, 추출된 LP계수들에 의해 필터링 특성이 결정되는 합성 필터(synthesis filter)를 이용하여 상기 코드북에 저장되어 있는 코드벡터들로부터 시험 음성 신호(trial speech signal)를 구 성하고, 입력되는 음성신호와 가장 근접한 음성신호의 코드벡터를 찾도록 수행된다. CELP is, which is using the synthesis filter (synthesis filter) which determines the filtering characteristics by the extracted linear prediction (weak as Linear Prediction, hereinafter LP) coefficients from an input voice signal and extracting the LP coefficient is stored in the code book configuring the testing speech signals (trial speech signal) from the code vectors, it is performed to find the input code vector of the speech signal and the closest voice signal.

도 1(a)는 잔류 영역(residual domain)에서 CELP 코드북 예의 Voronoi- region 형태를 도시한 도면이고, 도 1(b)는 음성 도메인에서 상당하는 CELP 코드북의 Voronoi-region 형태를 도시한 도면이다. Figure 1 (a) is a residual area (residual domain) is a view showing a CELP codebook example Voronoi- region form in, 1 (b) also shows a Voronoi-region type of CELP codebook corresponding to in the speech domain.

도 1(a) 및 도 1(b)를 참조하면, 이러한 CELP는 2차원인 경우에 코드북에 저장된 코드 벡터들의 Voronoi-region의 형태가 도 1의 (a)에 도시된 바와 같이 구형(spherical)에 거의 가깝게 될 수 있는 반면에 합성 필터에 의해 구성된 시험 음성 신호들은 도 1의 (b)와 같이 구형의 Voronoi-region의 형태를 갖지 않는다. Figure 1 (a) and spherical (spherical) as shown in Figure 1 (b), This CELP is a type of the Voronoi-region of the code vectors stored in the codebook when the two-dimensional of Figure 1 (a) Referring to testing speech signals do not have the form of a rectangle of the Voronoi-region as shown in (b) of Figure 1 is configured by a substantially number, while the synthesis filter to which is close to. 상기 Voronoi-region은 음성 신호를 2차원의 코드 벡터로 양자화하여 형성된다. The Voronoi-region is formed by quantizing the audio signal with a two-dimensional code vector. 따라서 CELP는 벡터 양자화의 이점인 스페이스 필링 및 형태의 이점을 충분히 사용하지 못하는 단점이 있다. Thus, CELP has the disadvantage that do not fully use the advantages of a space-filling and form of the advantages of vector quantization.

본 발명의 일 실시예는 음성신호에 대한 높은 부호화 효율을 제공하고, 벡터 양자화의 이점을 충분히 활용할 수 있는 벡터 양자화 장치 및 방법을 제공한다. One embodiment of the invention is to provide a high coding efficiency on a speech signal and to provide a vector quantization apparatus and method which can make full use of the advantages of vector quantization.

또한, 본 발명의 일 실시예는 KLT 도메인으로 변환된 음성신호의 코드 벡터의 분포에 관한 확률 밀도 함수가 존재하는 영역을 격자 형태로 형성한 후, 선택된 코드 벡터를 무손실 압축함으로써 음성신호를 양자화할 수 있는 벡터 양자화 장치 및 방법을 제공한다. Further, one embodiment of the present invention is to quantize the audio signal, by after forming a region in which the probability density function of the distribution of the code vectors of the speech signal converted into a KLT domain present in a grid form, a lossless compression of the selected code vector, It provides a vector quantization apparatus and method.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 (a) 입력되는 음성신호를 KLT 도메인으로 변환하는 KLT부, (b) 상기 KLT 도메인으로 변환된 음성신호의 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 표현하는 격자 벡터(lattice vector) 코드 벡터를 적응적으로 형성하여, 상기 음성신호를 상기 코드 벡터로 변환하는 격자 벡터 양자화부, (c) 적응적으로 선택된 무손실 코드북을 참조하여 상기 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어로 변환하고, 상기 부호어에 대응하는 인덱스를 전송하는 무손실 부호화부, (d) 상기 무손실 부호화부로부터 수신한 상기 인덱스에 기초하여, 상기 부호어를 상기 코드 벡터에 대응하는 심볼로 역변환하는 무손실 복호화부 및 (e) 상기 코드 벡터 As a technical means for achieving the above-mentioned technical problem, KLT unit for converting voice signals into KLT domain to which the input one side (a) of the present invention, (b) the code vector distribution of the audio signal converted to the KLT domain the probability density function is formed in an area that may be present in the lattice vector (lattice vector) adaptive code vector ever represented as a grid, lattice vector quantization unit for converting the speech signal to the code vector, (c) adaptively with reference to the selected lossless codebook by the length according to the occurrence probability of the code vector to the codevector conversion language and other symbols, and to receive from the lossless coding portion, (d) the lossless encoder for transmitting the index corresponding to the codeword one on the basis of the index, the lossless decoding unit for inversely converting the codeword to the symbols corresponding to the code vector, and (e) the code vector 포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 형성하여 상기 역변환된 심볼을 이산화된 코드 벡터로 출력하는 격자 벡 터 복호화부를 포함하는 음성신호에 대한 양자화 장치를 제공할 수 있다. The region that may be present in the probability density function of the fabric can provide a quantization apparatus for a speech signal including lattice vectors decoding and outputting a discrete cost the inversion symbol to form a lattice shape codevector parts.

또한, 본 발명의 제 2 측면은 a) 입력되는 음성신호를 KLT 도메인으로 변환하는 단계, b) 상기 KLT 도메인으로 변환된 음성신호의 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 표현하는 격자 벡터(lattice vector) 코드 벡터를 적응적으로 형성하여 상기 음성신호를 상기 코드 벡터로 변환하는 단계, c) 적응적으로 선택된 무손실 코드북을 참조하여, 상기 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어로 무손실 부호화하는 단계, d) 상기 부호어에 대응하는 인덱스를 전송하는 단계, e) 상기 수신한 인덱스에 기초하여, 상기 부호어를 상기 코드 벡터에 대응하는 심볼로 역변환하는 단계 및 f) 상기 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 형성하여 상기 역변환 된 심볼을 이산화된 코 In the second aspect of the invention a) the step of converting the voice signal inputted to the KLT domain, b) regions with the probability density function of the code vector distribution of the audio signal converted to the KLT domain may be present in a grid lattice expressing vector (lattice vector) comprising the steps of forming the code vector is adaptively converting the voice signal to the code vector, c) adaptively with reference to the selected lossless codebook, stochastic generation of the code vector to the codevector comprising: a length of the lossless encoding language other designators in, d) transmitting the index corresponding to the codeword, e) on the basis of the received index, the reverse conversion of the codeword to a symbol corresponding to the code vector step and f) dioxide have the inversion symbol to form a region that may be present in the probability density function of the code vector distribution in a grid nose 벡터로 출력하는 단계를 포함하는 음성신호에 대한 코드 벡터가 저장된 복수의 코드북이 구비된 양자화 장치의 상기 음성신호에 대한 양자화 방법을 제공할 수 있다. The code for the speech signal, comprising the step of outputting a vector may provide a quantization method for the speech signal of the quantization device a plurality of codebooks are provided stored.

전술한 본 발명의 과제 해결 수단에 의하면, 음성신호를 부호화할 때, 벡터 양자화의 이점을 충분히 이용할 수 있다. According to the problem solution means of the present invention described above, for coding a speech signal, it is possible to sufficiently take advantage of the vector quantizer.

또한, 전술한 본 발명의 과제 해결 수단에 의하면, 종래의 분류 벡터 양자화(CVQ) 장치 및 방법보다 향상된 SNR 및 RD(Rate-Distortion) 특성을 나타낼 수 있다. Further, the above-described, according to the problem solution means of the present invention, it may exhibit an improved SNR and RD (Rate-Distortion) characteristic than conventional classified vector quantization (CVQ) apparatus and methods.

또한, 전술한 본 발명의 과제 해결 수단에 의하면, 객관적 음질 평가인 지각 음질 평가(perceptual evaluation of speech quality, PESQ) 수치도 향상될 수 있다. Further, according to the problem solution means of the present invention described above, it can also be improved objective quality assessment of perceived quality rating (perceptual evaluation of speech quality, PESQ) levels.

또한, 본 발명의 다른 과제 해결 수단 중 하나에 의하면, 비공식적인 듣기 테스트(listening test)에서도 KLT 기반의 CVQ보다 더 향상된 성능을 나타낼 수 있다. Further, according to one of the other task means the resolution of the present invention, it is also to indicate a better performance than that of the KLT based CVQ informal listening test (listening test).

또한, 본 발명의 또 다른 과제 해결 수단 중 하나에 의하면, 부호화측 및 복호화측에서 ITU-T 표준 코덱인 G.728에서 사용된 역적응 방법(backward adaptive - manner)으로 선형 예측 계수를 추정하므로, 부호화기에서 복호화기로 LP 계수를 전송할 필요가 없다. Further, according to one of the other task means the resolution of the present invention, the de-adaptation method used in the ITU-T standard codec G.728 from the encoding side and decoding side - so estimate the linear prediction coefficients to the (backward adaptive manner), group decoded by the encoder does not need to send the LP coefficients.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. In the following description an embodiment of the invention in detail self of ordinary skill to be easily carried out in the pertaining this invention with reference to the accompanying drawings art. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. However, the invention is not to be implemented in many different forms and limited to the embodiments set forth herein. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. And the part not related to the description in order to clearly describe the present invention in the figures was in nature and not restrictive. Like reference numerals designate like elements throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. In the specification, when that any part is "connected" with another part, which is also included if it is the case that is "directly connected to", as well as, interposed between the other element or intervening "electrically connected" . 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하 는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. In addition to that some part "includes" any component, which not is, except for one other components not specifically opposed substrate which means that it can further include other components.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다. Reference to the accompanying drawings, a description the present invention will be described in detail.

도 2는 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 장치의 구성도이다. 2 is a block diagram of a quantization apparatus for a speech signal according to one embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명에 따른 음성신호에 대한 양자화 장치는 코드북 데이터베이스(100), KLT부(200), 코드북 선택부(300), 부호기측 양자화부(400) 및 복호기측 양자화부(500)을 포함한다. 2, the quantization apparatus for speech signals according to the present invention, the codebook database (100), KLT unit 200, a codebook selector 300, an encoder-side quantization unit 400 and the decoder-side quantization unit It comprises 500.

코드북 데이터베이스(100)는 KLT에 의해 얻어진 음성신호에 대한 코드 벡터를 KLT 도메인 통계치에 따라 복수개로 분류하여 구비하고 있다. The codebook database 100 is provided with a breakdown of the code vectors for a speech signal obtained by KLT with a plurality according to the KLT domain statistics.

코드북 데이터베이스(100)는 훈련(training) 단계에서 KLT의 에너지 집중 특성(energy concentration property)을 이용하여 음성신호(speech signal)에 대한 KLT 도메인 통계치(statistics)가 좁은 클래스(narrow class)별로 코드북이 분류되게 설계(design)될 수 있다. Codebook database 100 training (training) energy-intensive nature of the KLT in step (energy concentration property) for use with KLT domain statistics (statistics) a narrow class (narrow class) codebook is classified by for audio signal (speech signal) presented may be designed (design).

즉, 음성신호(speech signal)를 KLT 도메인(domain)으로 변환할 경우에, 도 4에 도시된 바와 같이 수평축(horizontal axis)을 따라 에너지가 집중된 도메인을 얻게 된다. That is, when converting an audio signal (speech signal) to the KLT domain (domain), is obtained by which the energy focused domain along the horizontal axis (horizontal axis), as shown in Fig. 도 3은 각 상관계수(correlation coefficient) a₁에 대한 2차원 음성 신호에 대한 코드 벡터들의 분포도를 나타낸 것이다. Figure 3 illustrates the distribution of the code vectors for a two-dimensional voice signal for each of the correlation coefficient (correlation coefficient) a₁. 도 4는 도 3에서와 같은 상관계수 a₁에서 상기 2차원 음성 신호에 상당하는 KLT 변환된 신호에 대한 코드 벡터들의 분포도를 나타낸 것이다. Figure 4 shows the distribution of the code vectors for a KLT-converted signal corresponding to the two-dimensional voice signal from the correlation coefficients a₁, as in Fig. 도 3에서 다른 통계치를 갖는 음성 신호들이 도 4의 KLT 도메인상에서 동일한 통계를 갖는다는 것을 알 수 있다. 3 in other statistics to which voice signals are also four of the KLT domain on the same statistics have is that the unknown is. KLT 도메인 상에 서 동일한 통계를 갖는다는 것은 동일한 고유값 세트(eigenvalue set)로 분류될 수 있다는 것을 의미한다. It is standing on the KLT domain has the same statistical meaning that can be classified as a set of the same intrinsic value (eigenvalue set).

코드북 데이터베이스(100)에 구비되는 제 1 내지 제 n 코드북에 상당하는 n 클래스중 하나로 음성신호를 분류하기 위하여 거리 측정(distance measure)법을 사용할 수 있다. One of the first to n classes corresponding to the n-th codebook included in the codebook database 100 may be a distance measurement (distance measure) method to classify the speech signals. 이것은 가장 근사한 통계치를 갖는 고유값 세트를 찾으면 된다. This is you find the unique set of values ​​having the approximate statistic.

고유값 세트들은 수학식 1과 같은 거리 측정에 의해 분류될 수 있다. Unique value sets may be classified by the distance measure, such as the equation (1).

Figure 112009040383843-pat00001

수학식 1에서 λ i 는 입력신호의 i번째 고유값이고, It is the i-th eigenvalue of λ i is the input signal in the equation (1),

Figure 112009040383843-pat00002
는 j번째 클래스 코드북의 i번째 고유값이다. Is the i-th eigenvalue of the j-th class codebook. 상기 k개의 { The k {
Figure 112009040383843-pat00003
} i=1,… } I = 1, ... k 를 j 번째 코드북의 고유값 세트라고 한다. k a is referred to as a unique value set in the j-th codebook. 상술한 바와 같이 코드북을 고유값 세트로 분류할 때, 가장 큰 고유값은 중요한 값이 된다. To classify the code book, as described above with a unique set of values, the largest eigenvalue is the important value.

제 1 내지 제 n 번째 코드북에 포함되는 코드 벡터들은 KLT 도메인으로 변환된 양자화 된 음성신호들이다. First to n-th code vector contained in the second codebook are the voice signals that are converted to the KLT domain quantization. 코드북 분할을 위하여 음성신호들의 에너지에 해당되는 고유값은 수학식 2와 같이 정규화(normalize)한다. Eigenvalues ​​corresponding to the energy of the speech signal to a codebook divided normalizes (normalize) as shown in equation (2).

Figure 112009040383843-pat00004

정규화 된 고유 값들은 수학식 1에 적용된다. The normalized specific values ​​are applied to equation (1).

상술한 클래스 고유값 세트들은 실제적인 음성 데이터의 P차 LP 계수들로부터 추정되고, 수학식 1과 같은 거리 측정 기능을 갖는 LBG(Linde-Buzo-Gray)알고리즘을 이용하여 학습된다. The above-described class-specific set of values ​​are estimated from actual P order LP coefficients of the audio data, it is learned using the LBG (Linde-Buzo-Gray) algorithm having a distance measurement function, such as equation (1). 많은 클래스의 코드북들이 코드북 데이터베이스(100)에 포함되면, 음성신호에 대한 벡터 양자화 장치의 SNR 효율은 더 향상된다. If the code book of the number of classes to be included in the codebook database (100), SNR efficiency of vector quantization apparatus for speech signals is further improved.

KLT부(200)는 입력되는 음성신호를 KLT 도메인으로 변환하고, 이를 다시 역KLT 변환한다. KLT unit 200 converts the voice signal input to the KLT domain, and converts them back to the station KLT. 상기 KLT 변환은 프레임 단위로 이루어진다. The KLT transform is performed on a frame-by-frame basis. 이를 위하여 KLT부(200)는 먼저, 입력되는 음성신호를 분석하여 선형 예측(Linear Predictive) 계수를 추정한다. To this end KLT unit 200, first, estimate the prediction (Linear Predictive) coefficient linear analyzes the audio signal to be input. 예를 들어, KLT부(200)는 이전 프레임에서 양자화된 음성신호에 기초하여 현재 프레임의 선형 예측(Linear Predictive) 계수를 추정할 수 있다. For example, KLT unit 200 may estimate the linear prediction (Linear Predictive) coefficients of the current frame on the basis of the speech signal quantized in the previous frame.

만약, 선형 예측 계수 분석이 원 신호 도메인(original signal domain)에서 수행되는 경우, LP 계수를 양자화하여 그것의 인덱스(index)를 다시 복호기측 양자화부(500)로 전송하여야만 한다. If, when the linear prediction coefficient analysis is performed on the original signal domain (original signal domain), quantizes the LP coefficient It should be sent to its index (index) again to the decoder-side quantization unit 500. 이러한 부가 정보의 전송을 제거하기 위해, 본 실시예에서는 역 적응 방법(backward adaptive manner)을 이용하여, 선형 예측 계수 분석의 입력으로서 이전 프레임(frame)에서 합성된 신호를 이용한다. To eliminate the transmission of such additional information, using the present embodiment, the station adaptation method (backward adaptive manner), as an input to a linear prediction coefficient analysis uses a signal synthesized from the preceding frame (frame).

본 발명에 따른 양자화 장치는 부호기측 양자화부(400)와 복호기측 양자화부(500)를 포함하고, 영입력 응답부(600)에서는 LPC 필터(filter)의 동일한 제로 입력 응답(zero-input response, 이하 ZIR이라 함)이 얻어지기 때문에, KLT부(200)는 오직 제로 상태 응답(zero-state response, 이하 ZSR이라 함), 즉, s k 를 고유벡 터 행렬 U를 이용하여 KLT 도메인으로 변환한다. Quantization apparatus according to the present invention is an encoder-side quantization unit 400 and to a decoder-side quantization unit 500, a zero input response (600) in the same zero-input response (zero-input response of the LPC filter (filter), since the following is obtained the term ZIR), KLT unit 200 is only referred to as a zero-state response (zero-state response, below ZSR), i.e., unique to s k vectors with the matrix U transforms the KLT domain .

또한, KLT부(200)는 구해진 선형 예측 계수의 임펄스 응답 H를 이용하여 입력신호의 공분산(covariance) 행렬 ∑=HH T 를 구한다. Also, KLT unit 200 using the impulse response H of the linear prediction coefficients obtained covariance (covariance) matrix of the input signal Σ is obtained = HH T. 예를 들어, 5차원 (dimensional)인 경우에, 공분산 행렬 ∑는 하기 수학식 3과 같이 정의된다. For example, when the 5-D (dimensional), the covariance matrix Σ is to be defined as Equation (3).

Figure 112009040383843-pat00005

상기 수학식 3에서, A₁= In Equation 3, A₁ =

Figure 112009040383843-pat00006
이고, A₂= And, A₂ =
Figure 112009040383843-pat00007
이고, A₃= And, A₃ =
Figure 112009040383843-pat00008
이고, A₄= And, A₄ =
Figure 112009040383843-pat00009
이다. to be. a 1 내지 a 4 는 선형 예측 계수이다. a 1 to a 4 are linear prediction coefficients. 따라서, 선형 예측 계수를 이용하여 공분산 행렬 ∑를 구할 수 있다. Thus, using the linear prediction coefficients can be determined for the covariance matrix Σ.

또한, KLT부(200)는 공분산 행렬 ∑에 대한 고유값(eigenvalue) λ i 을 수학식 4를 이용하여 산출할 수 있다. Also, KLT unit 200 has a unique value (eigenvalue) λ i of the covariance matrix Σ may be computed using the equation (4).

det(∑ - λ i I) = 0 det (Σ - λ i I) = 0

또한, KLT부(200)는 고유값에 기초하여 수학식 5에 의하여 고유 벡터를 구할 수 있다. Also, KLT unit 200 on the basis of the eigenvalues ​​can be determined eigenvectors by the equation (5).

(∑ - λ i I)P i = 0 (Σ - λ i I) P i = 0

상기 수학식 4 및 5에서 I는 단위(identity) 행렬이다. In Equation 4 and 5 I is unit (identity) is the matrix. 이 행렬은 대각선 행렬 값이 모두 1이고, 나머지는 모두 0인 행렬이다. The matrix is ​​a both a value diagonal matrix 1, and the others are all zeros matrix. 수학식 5를 만족하는 고유 벡터는 정규화(normalization)하여 구한다. Eigenvectors satisfying the expression (5) is obtained by normalizing (normalization).

행렬 Λ의 대각선(diagonal)을 따라 공분산 행렬 ∑의 정돈된 고유값 λ i 들을 배열함으로써 행렬 Λ를 얻을 수 있다. By arranging the eigenvalues ordered the covariance matrix Σ λ i along the diagonal (diagonal) of the matrix Λ is possible to obtain a matrix Λ.

한편, KLT부(200)는 구해진 고유벡터를 이용하여 고유벡터 행렬 U를 수학식 6과 같이 구할 수 있다. On the other hand, KLT unit 200 is the eigenvector matrix U using the obtained eigenvectors be obtained as equation (6).

U=[P₁, P₂, ‥‥P n ] U = [P₁, P₂, ‥‥ P n]

상기 수학식 6에서 P₁, P₂, P n 은 nx 1 행렬이다. In Equation 6 P₁, P₂, P n is an nx 1 matrix.

KLT부(200)는 U를 입력되는 음성신호 s k 에 승산하여, 입력된 음성신호를 KLT 도메인으로 변환한다. KLT unit 200 by multiplying the voice signal s k which is input to U, converts the inputted audio signal as a KLT domain. 여기서 s k 는 선형 예측 합성 필터의 k차 제로 입력 응답(k-dimensional zero input response)이다. Where s k is a k order of the linear prediction synthesis filter zero input response (k-dimensional zero input response) . 또한, s k 는 음성신호의 k차(k-dimensional) 벡터이다. Furthermore, s k is a k order (k-dimensional) vector of the speech signal.

코드북 선택부(300)는 공분산 행렬을 통해 구한 고유값 행렬 Λ에 기초하여, 부호기측 양자화부(400)와 복호기측 양자화부(500)에서의 시변 확률 질량 함 수(time-varying probability mass function, PMF)를 측정할 수 있다. Codebook selector 300 is also mass time-varying probability on the basis of the eigenvalue matrix Λ obtained from the covariance matrix, the encoder-side quantization unit 400 and the decoder-side quantization unit 500 may (time-varying probability mass function, the PMF) can be measured.

코드북 선택부(300)는 상기 KLT부(200)가 생성한 행렬 Λ에 기초하여, 코드북 데이터베이스(100)에서 무손실 부호화를 위한 최적의 코드북을 선택할 수 있다. A codebook selector 300 may select an optimal codebook for the lossless encoding in the codebook database 100 based on the created matrix Λ the KLT unit 200. 즉, 상기 수학식 1에 따라 상기 KLT부(200)가 생성한 행렬 Λ와 가장 근사한 고유값을 갖는 하나의 코드북을 선택할 수 있다. That is, it is possible according to the equation (1) to select one codebook having the closest eigenvalues ​​and the KLT unit matrix by 200. The generated Λ.

부호기측 양자화부(400)은 격자 벡터 양자화부(410) 및 무손실 부호화부(420)을 포함한다. The encoder-side quantization unit 400 comprises a lattice vector quantization unit 410 and a lossless coding unit 420.

격자 벡터 양자화부(410)는 KLT 도메인으로 변환된 음성신호, 즉, Us k 를 양자화한다. Lattice vector quantization unit 410 quantizes the transform to KLT domain audio signal, i.e., Us k.

한편, 적응적으로 격자 벡터 양자화의 무게중심(centroid)에 대한 확률 밀도 함수를 측정하기 위해서, 음성 신호의 단시간의 히스토그램(histogram)은 가우스 밀도에 의해 간소화될 수 있기 때문에, s k 와 Us k 가 각각 정규 분포 N(0,∑)와 N(0,Λ)를 갖는 것으로 가정할 수 있다. On the other hand, to measure the probability density function for the center of gravity (centroid) of the lattice vector quantization adaptively, since the histogram (histogram) of the short time of the audio signal can be simplified by the Gaussian density, s k and Us k is it can be assumed that each of which has a normal distribution N (0, Σ) and N (0, Λ). 그러므로, k 차원 여기 신호(k-dimensional excitation signal), 즉, e k 는 제로 평균 비상관 가우시안(zero mean uncorrelated Gaussian)으로 간략화될 수 있다. Thus, k-dimensional excitation signal (k-dimensional excitation signal), that is, e k can be simplified with zero mean uncorrelated Gaussian (zero mean uncorrelated Gaussian). 따라서, 대응하는 영상태 응답(ZSR), s k 는 He k 로 모델링 될 것이다. Accordingly, the corresponding zero-state response (ZSR) which, s k will be modeled as He k.

한편, 격자 벡터 양자화부(410)는 KLT부(200)에 의해 KLT 도메인으로 변환된 음성신호에 대한 코드 벡터 분포의 확률 밀도 함수가 존재하는 영역을 도 5에 도시 된 바와 같이, 격자 형태로 형성하여 상기 음성신호를 코드 벡터로 변환할 수 있다. In addition, the lattice vector quantization unit 410 as a region in which the probability density function of the code vector distributions for the audio signal converted to a KLT domain by the KLT unit 200 exists as shown in Figure 5, formed as a grid and it may convert the voice signal as a code vector.

또한, 격자 벡터 양자화부(410)는 격자 형태 코드북에 실려 있는 코드 벡터들과 상기 변환된 음성신호 간의 왜곡값에 기초하여 최적의 코드 벡터를 선택할 수 있다. In addition, the lattice vector quantization unit 410 may select an optimal code vector on the basis of the distortion value between the converted voice signal with the code vectors as listed in the grid of the codebook.

격자 벡터 양자화부(410)는 하기의 수학식 7을 이용하여, KLT부(200)로부터 수신된 Us k 와 격자 형태 코드북에 실려 있는 코드 벡터들 간에 왜곡값을 계산할 수 있다. Lattice vector quantization unit 410 by using the equation (7) below, we can calculate the distortion value between the code vectors as listed in the Us k and grid form a codebook received from the KLT unit 200.

ε=(Us k -c^ i , j k ) T (Us k -c^ i , j k ) ε = (Us k -c ^ i , j k) T (Us k -c ^ i, j k)

상기 수학식 7에서 c^ i , j k 는 Us k 에 대한 j 번째 클래스의 i 번째 코드북 엔트리(entry)이다. In Equation 7 c ^ i, j k is the i-th codebook entry (entry) of the j-th class of the Us k. 또한, T는 전치(transpose)이다. In addition, T is the transpose (transpose). 여기서, j 번째 클래스의 고유값은 상기의 수학식 1을 이용하여 구할 수 있다. Here, the specific value of the j-th class can be found using equation 1 above.

무손실 부호화부(420)는 상기 격자 벡터 양자화부(410)가 변환한 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어(codeword)로 변환할 수 있다. A lossless coding unit 420 may have a length according to the occurrence probability of the code vector for the lattice vector quantization unit 410 converts the code vector converted to other codewords (codeword). 예를 들어, 발생 확률이 큰 코드 벡터에는 짧은 길이의 부호어를 배정하고, 발생 확률이 작은 코드 벡터에는 긴 길이의 부호어를 배정하여, 보다 적은 비트(bit)로써 부호어를 생성할 수 있다. For example, a large code vector occurrence probability is to assign code words of short length, and the occurrence probability is assigned a code word of the small code vector has a long length, it is possible to generate the codeword by fewer bits (bit) .

전술한 바와 같이, 코드북 선택부(300)에서 고유값 행렬 Λ가 측정되었기 때문에, 무손실 부호화부(420)는 최적의 무손실 부호화 테이블, 예를 들어, 허프만 부호화(Huffman coding) 테이블을 추가적인 비트(bit)를 전송하지 않고도 적응적으로 선택할 수 있다. Since, eigenvalue matrix Λ is measured in the codebook selecting section 300 as described above, the lossless coding unit 420 is optimum lossless coding table, for example, additional bits to the Huffman coding (Huffman coding), a table (bit ) it can be selected adaptively without sending the.

또한, 무손실 부호화부(420)는 최소 왜곡을 갖는 최적의 부호어에 대한 인덱스 정보를 복호기측 양자화부(500)로 전송할 수 있다. In addition, lossless coding unit 420 may send the index information for the optimum codeword with the minimum distortion to the decoder-side quantization unit 500.

복호기측 양자화부(500)은 무손실 복호화부(510) 및 격자 벡터 복호화부(520) 를 포함한다. Decoder side quantization unit 500 and a lossless decoding portion 510 and the grating vector decoding unit 520.

무손실 복호화부(510)는 무손실 부호화부(420)로부터 최적의 코드벡터의 인덱스를 수신하고, 적응적으로 선택된 무손실 부호화 코드북을 이용하여, 상기 인덱스에 대응하는 코드 벡터를 검출할 수 있다. Lossless decoding unit 510 may receive the index of the best codevector from the lossless coding unit 420, using a lossless encoding codebook selected adaptively detecting a code vector corresponding to the index.

즉, 상기 인덱스는 특정 부호어에 대응하므로, 무손실 복호화부(510)는 상기 부호어를 복호화하여 상기 코드 벡터에 대응하는 심볼로 역변환 할 것이다. That is, the index is corresponding to a particular code word, the lossless decoding unit 510 will be converted back to symbols by decoding the code words corresponding to the code vector.

격자 벡터 복호화부(520)는 코드 벡터 분포의 확률 밀도 함수가 존재하는 영역을 격자 형태로 형성하여 무손실 복호화부(510)가 역변환 한 심볼을 이산화된 코드 벡터로 출력할 수 있다. Lattice vector decoding unit 520 may be formed a region in which the probability density function of the code vector distribution present in a lattice form to be output to the digitized symbols by the lossless decoding unit 510, inverse code vector.

이산화된 코드 벡터는 KLT부(200)에 의해 역KLT 변환되며, 최종 합성음은 영입력 응답부(600)의 ZIR을 더해서 얻어진다. Dioxide code vector inverse KLT is converted by the KLT unit 200, the final synthesized sound becomes zero is obtained by adding the ZIR of the input response (600).

본 명세서에서는 부호기측 양자화부(400)과 복호기측 양자화부(500)가 하나의 시스템에 존재하는 것으로 설명하였지만, 이에 한정되지 않으며, 부호기측 양자 화부(400)와 복호기측 양자화부(500)는 별도의 시스템으로 각각 존재할 수 있다. In this specification, it has been described as the encoder-side quantization unit 400 and the decoder-side quantization unit 500 is present in one system, this is not limited, the encoder-side quantization unit 400 and the decoder-side quantization unit 500 each may be present in a separate system.

도 6은 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 장치의 RD 특성 그래프이다. Figure 6 is a RD characteristic graph of quantization apparatus for speech signals according to an embodiment of the present invention.

도시된 바와 같이, 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 장치의 성능을 알아보기 위해, 본 발명 이외의 3가지의 음성신호 양자화 장치와 함께 성능을 비교하였다. As shown, to determine the performance of the quantization apparatus for a speech signal according to one embodiment of the invention, and compare the performance with the three audio signal quantization apparatus other than the present invention.

예를 들어, 본 발명 이외의 3가지의 음성신호 양자화 장치는 입력 신호 도메인 엔트로피 제한적 벡터 양자화 장치(IS-ECVQ), KLT 도메인 엔트로피 제한적 벡터 양자화 장치(KLT-ECVQ), 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)일 수 있다. For example, three of the audio signal quantization apparatus other than the present invention, the input signal domain entropy limiting the vector quantization apparatus (IS-ECVQ), KLT domain entropy limiting the vector quantization apparatus (KLT-ECVQ), the input signal domain adaptive entropy limited vector may be a quantization unit (iS-AECVQ).

음성신호 양자화 장치의 RD 특성은 하기의 수학식에 의해 결정될 수 있다. RD attributes of the audio signal quantization apparatus can be determined by the following equation.

Figure 112009040383843-pat00010

여기서 h(Y k )는 시험 소스(test-source) 벡터 Y k 의 차등 엔트로피(differential entropy)이다. Wherein (Y k) h is the test source (test-source) vector differential entropy (differential entropy) of Y k. C(k,G)는 k차원 Voronoi-region 모양에 대한 정규화된 관성 모멘트(moment of inertia)이다. C (k, G) is the normalized inertia moment (moment of inertia) for the k-dimensional Voronoi-region shape. 예를 들어, k=2인 경우, 가장 좋은 격자는 육각의 모양을 갖고, C(k,G)는 0.08018일 수 있다. For example, if k = 2, may be the best lattice has a shape of a hexagon, C (k, G) is 0.08018. 그러므로 각 부호화 방법의 이론상의 RD 경계(bound)는 h(Y k )를 추정함으로써 계산될 수 있다. Therefore, the theoretical RD boundary (bound) for each coding method may be calculated by estimating (Y k) h.

본 발명의 일 실시예에 따른 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)는, ∑ m 의 시변 고유 벡터(time-varying eigenvector)를 이용하여 입력신호를 KLT 도메인으로 적응적으로 변환할 수 있다. KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) in accordance with one embodiment of the present invention, Σ by using a time-variant-specific vector (time-varying eigenvector) of m be changed adaptively the input signal to the KLT domain can. 그리고, 공분산 행렬은 고유값(eigenvalue) 행렬 Λ m 으로 변화될 수 있다. Then, the covariance matrix can be changed to a unique value (eigenvalue) matrix Λ m. KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)에서는 Λ m 이 사전에 주어지므로, KLT 도메인 신호의 평균 차등 엔트로피(differential entropy)는 수학식 9에 의해 계산될 수 있다. The KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) Λ m is therefore given in advance, the average differential entropy (differential entropy) of the KLT domain signal can be calculated by the equation (9).

Figure 112009040383843-pat00011

한편, 본 발명의 일 실시예에 따른 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)를 포함하여, 입력 신호 도메인 엔트로피 제한적 벡터 양자화 장치(IS-ECVQ), KLT 도메인 엔트로피 제한적 벡터 양자화 장치(KLT-ECVQ) 및 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)의 RD 특성을 구하기 위해서는 상기 수학식 8에서 h(Y k )를 변경하면 된다. On the other hand, the input signal domain entropy limiting the vector quantization apparatus (IS-ECVQ), KLT domain entropy limited vector quantization apparatus comprises a KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) according to one embodiment of the present invention ( in order to obtain the RD characteristics of the KLT-ECVQ) and the input signal domain adaptive entropy limiting the vector quantization apparatus (iS-AECVQ) may be changed to h (Y k) in the equation (8). 이때, 각 장치에 따른 h(Y k )는 하기의 수학식에 의해 각각 얻어질 수 있다. At this time, can be respectively obtained by the equation below is h (Y k) for each device.

입력 신호 도메인 엔트로피 제한적 벡터 양자화 장치(IS-ECVQ)의 차등 엔트로피, h(S k )는 수학식 10 및 11에 의해 계산될 수 있다. Input signal domain differential entropy, h (S k) of the entropy-limiting vector-quantization unit (IS-ECVQ) can be calculated by equation 10 and 11.

Figure 112009040383843-pat00012

여기서 here

Figure 112009040383843-pat00013
는 하기의 수학식 11과 같고, N과 S n k 는 각각 샘플의 개수와 입력 신호의 n번째 샘플을 나타낸다. Is equal to the equation (11) below, N and S n k represents the n-th sample of the number of input signals of the sample, respectively.

Figure 112009040383843-pat00014

여기서, M, α m 및 ∑ m 은 mixture의 개수, 가중치 및 공분산 행렬을 나타낸다. Here, M, α m and Σ m represents the number of the mixture, the weight and the covariance matrix.

또한, KLT 도메인 엔트로피 제한적 벡터 양자화 장치(KLT-ECVQ)의 차등 엔트로피 h(V k )는 상기 수학식 10에서 Further, the differential entropy of the KLT domain entropy limiting the vector quantization apparatus (KLT-ECVQ) h (V k) from the equation (10)

Figure 112009040383843-pat00015
The
Figure 112009040383843-pat00016
으로 대체하여 계산될 수 있다. It can be calculated by replacing. 여기서 here
Figure 112009040383843-pat00017
는 하기의 수학식에 의해 계산될 수 있다. It may be calculated by the following equation.

Figure 112009040383843-pat00018

여기서, Λ m 는 메인(main) 대각선(diagonal)에서 고유값(eigenvalue) {λ m,i }를 갖는 m 번째 공분산 행렬이다. Here, Λ m is the m-th covariance matrix that has a unique value (eigenvalue) {λ m, i } in the main (main) diagonal (diagonal).

입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)의 차등 엔트로피는 수학식 13에 의해 계산될 수 있다. Differential entropy of the input signal domain adaptive entropy limiting the vector quantization apparatus (IS-AECVQ) can be calculated by the equation (13).

Figure 112009040383843-pat00019

상기 수학식 9 내지 13에 의해 계산된 각 장치의 차등 엔트로피를 이용하여 각 장치의 RD 성능을 비교한 결과, 도 6과 같다. Using the differential entropy of each device that is calculated by the equation (9) to (13) Comparison of the RD performance of each apparatus, shown in FIG.

도 6을 참조하면, 동일한 레이트(rate)를 얻기 위해, 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)와 본 발명에 따른 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)가 다른 장치들 보다 더 낮은 왜곡(distortion)을 나타내었다. Referring to Figure 6, to achieve the same rate (rate), the input signal domain adaptive entropy limiting the vector quantization apparatus (IS-AECVQ) and KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) according to the invention is It exhibited a lower distortion (distortion) than the other devices. 즉, 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)와 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)가 가장 좋은 RD 특성을 나타내었다. That is, the input signal domain adaptive entropy limited vector quantization unit (IS-AECVQ) and KLT domain adaptive entropy limited vector quantization unit (KLT-AECVQ) is the best RD characteristics exhibited was.

도 7은 훈련(training) 신호와 시험(test) 신호가 불일치(mismatch) 하는 경우의 RD 특성 그래프이다. 7 is a RD characteristic graph in the case of training (training) signal and a test (test) signal the discrepancy (mismatch).

본 명세서에서는 훈련(training) 신호와 시험(test) 신호 모두가 가우시안(Gaussian) 확률 밀도 함수(PDF)를 갖는다고 가정하였지만, 실제로, 시험(test) 신호는 가우시안(Gaussian) 확률 밀도 함수(PDF)를 갖지 않을 수도 있다. Although the present specification, the training (training) both the signal and the test (test) signal has a Gaussian (Gaussian) probability density function (PDF) and assumes, in fact, test (test) signals are Gaussian (Gaussian) probability density function (PDF) the may not have.

그러나, 도 7을 참조하면, 본 발명의 일 실시예에 따른 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)에 의하면, 훈련(training) 신호가 가우시안(Gaussian) 확률 밀도 함수(PDF)를 갖는다면, 시험(test) 신호가 가우시안(Gaussian) 확률 밀도 함수(PDF)를 갖지 않아도 RD 특성에는 변화가 없음을 알 수 있다. However, 7, according to the KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) according to one embodiment of the present invention, training (training) signal is Gaussian (Gaussian) probability density function (PDF) test (test) without signal having a Gaussian (Gaussian) probability density function (PDF) RD characteristics if having it can be seen no change.

도 8은 본 발명의 일 실시예에 따른 음성신호 양자화 장치의 RD 성능을 기록한 테이블이다. Figure 8 is a table recording the RD performance of the audio signal quantization apparatus according to one embodiment of the present invention.

도 8을 참조하면, 본 발명의 일 실시예에 따른 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ) 외에, KLT 도메인 분류 벡터 양자화(CVQ) 장치 및 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ) RD 특성을 기록하였다. 8, the addition to the KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) according to one embodiment of the invention, KLT domain classified vector quantization (CVQ) device and input signal domain adaptive entropy limited vector quantization apparatus the (IS-AECVQ) RD characteristics were recorded.

도 6의 그래프는 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)와 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ) 모두, 선택할 수 있는 코드북의 개수가 무한히 많다고 가정한 결과이지만, 실제로는 코드북의 개수에 제한을 둘 필요가 있다. The graph of Figure 6 represents the results of assumed input signal domain adaptive entropy limiting the vector quantization apparatus (IS-AECVQ) and KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) in all, the number of codebooks that can be selected indefinitely tons but , there is actually a need to limit the number of codebooks.

도 8을 참조하면, 코드북 클래스(class)의 개수를 증가시킬수록, KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)는 동일한 SNR을 얻기 위해 더 낮은 레이트(rate)를 필요로 한다. 8, the more increased the number of codebook class (class), KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) will require a lower rate (rate) to achieve the same SNR. 또한, 32개의 클래스(class)의 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)는 무한대의 클래스(class)의 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)와 거의 동일한 특성을 보이고 있음을 알 수 있고, 무한대의 클래스(class)의 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)의 RD 특성은 무한대 클래스(class) 의 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)의 RD 특성과 같다. Further, substantially the same characteristics as the 32 class (class) of the KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) is KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) of infinite class (class) showing that the it can be seen, RD characteristics of the KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) of infinite class (class) is infinite input signal domain of a class (class) adaptive entropy limiting the vector quantization apparatus (iS as RD characteristics of -AECVQ). 그러므로, 32개의 클래스(class)의 KLT 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(KLT-AECVQ)는 최적화된 입력 신호 도메인 적응적 엔트로피 제한적 벡터 양자화 장치(IS-AECVQ)의 대안으로 구현될 수 있다. Therefore, KLT domain adaptive entropy limiting the vector quantization apparatus (KLT-AECVQ) of the 32 classes (class) may be implemented as an alternative to the optimization input signal domain adaptive entropy limiting the vector quantization apparatus (IS-AECVQ).

도 9는 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 방법의 흐름도이다. 9 is a flowchart of a quantization method for a speech signal according to one embodiment of the present invention.

도 9를 참조하면, 단계(S600)은 음성신호가 입력되는지 여부를 판단하는 단계이다. 9, a step (S600) is a step of determining whether the input audio signal.

단계(S602)는 상기 단계(S600)에서 입력된 음성신호에 대한 선형 예측 계수를 추정하는 단계이다. Step (S602) is a step of estimating the linear prediction coefficients of the audio signal input in the step (S600). 선형 예측 계수는 프레임 단위로 추정된다. Linear prediction coefficients are estimated frame by frame. 이때, 역 적응 방법(backward adaptive manner)을 이용하여, 이전 프레임에서 양자화된 음성신호에 기초하여 현재 프레임의 선형 예측(Linear Predictive) 계수를 추정할 수 있다. At this time, by using the inverse adaptive manner (backward adaptive manner), on the basis of the speech signal quantized in the previous frame it can be estimated by using a linear predictive (Linear Predictive) coefficients of the current frame.

단계(S604)는 상기 단계(S600)에서 입력된 음성신호의 공분산 행렬 ∑를 상기 수학식 3을 이용하여 구하는 단계이다. Step (S604) is a step of obtaining by the equation (3) the covariance matrix Σ of the audio signal entered at the step (S600).

단계(S606)은 상기 단계(S604)에서 구해진 공분산 행렬 ∑를 이용하여 입력되는 음성신호에 대한 고유값을 구하고, 구해진 고유값으로 고유 벡터를 구하는 단계이다. Step (S606) is a step of obtaining the eigenvector with eigenvalue to obtain a unique value, determined for the speech signal to be input by using the covariance matrix Σ obtained in the step (S604).

또한, 단계(S606)에서는 산출한 고유값을 이용하여 행렬 Λ를 구하고, 상기 고유 벡터를 이용하여 고유 벡터 행렬 U를 구한다. Further, the step (S606) in obtaining the matrix Λ using the calculated specific value, by using the eigenvectors calculated eigenvector matrix U. 행렬 Λ와 고유 벡터 행렬 U를 구하는 방식은 도 2의 KLT부(200)에서 설명한 바와 같다. Matrix Λ and the way to obtain the eigenvector matrix U are as described in the KLT unit 200 of FIG.

단계(S608)에서 고유 벡터 행렬 U를 이용하여 입력되는 음성신호를 KLT 도메인으로 변환할 수 있다. In step (S608) may convert the voice signal into a KLT domain inputted using the eigenvector matrix U.

단계(S610)은 상기 단계(S608)에서 KLT 도메인으로 변환된 음성신호에 대한 코드 벡터 분포의 확률 밀도 함수가 존재하는 영역을 행렬 Λ를 이용하여 격자 형태 코드북을 형성하고, 음성신호를 코드 벡터로 변환하는 단계이다. Step (S610) is the audio signal to form a grid of the codebook to the code vector to a region in which the probability density function of the code vector distributions for the audio signal converted to the KLT domain in the above step (S608) exists by using the matrix Λ a step of converting.

단계(S612)에서, 상기 단계(S610)에서 생성된 격자 형태 코드북에 실려 있는 코드 벡터들과 상기 단계(S608)에서 변환된 음성신호 간의 왜곡값을 상기 수학식 7을 이용하여 산출하고, 상기 왜곡값에 기초하여 최적의 코드 벡터를 선택할 수 있다. Step (S612) in the step (S610) in the generated grid codebook on a stretcher in the code vector and the step (S608) in the converted voice signals between the distortion value of the equation (7) the use of calculating and the distortion and you can select the optimum code vector based on the value.

단계(S614)는 상기 단계(S606)에서 산출된 음성신호에 대한 고유값(eigenvalue)에 기초하여 복수의 무손실 코드북에서 최적의 무손실 코드북을 선택하는 단계이다. Step (S614) is a step of selecting an optimum lossless code book in a plurality of lossless codebook based on the specific value (eigenvalue) of the audio signal determined in the step (S606).

단계(S616)는 상기 단계(S612)에서 선택된 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 상기 단계(S614)에서 선택된 코드북을 이용하여 길이가 다른 부호어로 무손실 변환하는 단계이다. Step (S616) is a step in which the length using the selected codebook in the above step (S614) in accordance with the occurrence probability of the code vector, a code vector selected in the step (S612) language lossless transform other symbols. 예를 들어, 발생 확률이 큰 심볼에는 짧은 길이의 부호어를 배정하고, 발생 확률이 작은 심볼에는 긴 길이의 부호어를 배정하여, 부호어를 생성할 수 있다. For example, the occurrence probability is largest symbol is assigned a code word with a short length, and the occurrence probability is to small symbol is assigned a code word of a longer length, it is possible to generate a codeword.

단계(S618)은 상기 단계(S616)에서 생성된 부호어를 복호기측 양자화부(500)로 전송하는 단계이다. Step (S618) is a step of transmitting a code word generated in the above step (S616) to the decoder-side quantization unit 500.

이후, 단계(S620)에서 복호기측 양자화부(500)는 적응적으로 선택된 무손실 부호화 코드북을 이용하여, 수신한 인덱스에 대응하는 부호어를 특정 코드 벡터에 대응하는 심볼로 역변환 할 수 있다. Then, the decoder-side quantization unit 500 at step (S620) by using a lossless encoding codebook selected adaptively, it is possible to reverse the codeword corresponding to the received index to a symbol corresponding to a particular code vector.

마지막으로 단계(S622)에서 상기 단계(S620)에서 역변환 된 심볼을 이산화된 코드 벡터로 출력할 수 있다. Finally, there can be output to the step (S622) the at dioxide the inverse transform symbols in the above step (S620) the code vectors. 이렇게, 이산화된 코드 벡터는 KLT 변환 되어 있으므로, KLT부(200)에 의해 역KLT 변환된 수 있다. To do this, it dioxide code vectors KLT is converted, the station by the KLT unit (200) KLT can be converted. 나아가, 최종적으로 출력될 음성 신호를 얻기 위해 ZIR을 더해준다. In addition, it adds to the ZIR to obtain a speech signal to be finally output.

본 발명의 일 실시예에 따른 양자화 장치 및 방법은, 양자화기 출력의 정보량(entropy)를 제한한 엔트로피 제한적 벡터 양자화 장치이기 때문에, 분류 벡터 양자화(CVQ) 장치 및 방법보다 향상된 SNR 및 RD 특성을 나타낼 수 있다. Quantization device and method according to an embodiment of the present invention, since the entropy-limiting vector quantization apparatus limit the information amount (entropy) of the quantizer output, classified vector quantization (CVQ) exhibit an enhanced SNR and RD characteristics than apparatus and methods can.

또한, 본 발명의 일 실시예에 따른 양자화 장치 및 방법에 의하면, 주관적 음질 평가인 음성 질 지각 평가(perceptual evaluation of speech quality, PESQ) 수치도 향상될 수 있다. Further, according to the quantization device and method according to an embodiment of the invention, the subjective quality assessment of audio quality perception rating (perceptual evaluation of speech quality, PESQ) value can also be improved.

또한, 본 발명의 일 실시예에 따른 양자화 장치 및 방법에 의하면, 비공식적인 듣기 테스트(listening test)에서도 KLT 기반의 CVQ보다 더 향상된 성능을 나타낼 수 있다. Further, according to the quantization device and method according to an embodiment of the present invention, it is also to indicate a better performance than that of the KLT based CVQ informal listening test (listening test).

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. One embodiment of the present invention can also be implemented in the form of a recording medium comprising instructions executable by a computer, such as program modules, being executed by a computer. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. Computer readable media can be any available media that can be accessed by the computer and includes both volatile and nonvolatile media, removable and non-removable media. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. Further, the computer readable medium may include both computer storage media and communication media. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. And communication media typically include other data, or other transport mechanism in a modulated data signal such as computer readable instructions, data structures, program modules, or carrier, and includes any information delivery media.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. Description of the invention described above will be appreciated that is for illustrative purposes, One of ordinary skill in the art without changing the technical spirit or essential features of the present invention easily deformed is possible in other specific forms will be. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. Thus the embodiments described above are to be understood as illustrative and non-restrictive in every respect. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. For example, the components that are described in one-piece can be performed with the may be practiced with a distributed, coupling also been described as distributed components, which likewise form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. The scope of the invention is intended to be included within the scope of the above description becomes than indicated by the claims, which will be described later, and all such modifications as derived from the meaning and range and equivalents concept as recited in the claims the invention do.

도 1(a)는 잔류 영역(residual domain)에서 CELP 코드북 예의 Voronoi- region 형태를 도시한 도면이고, 도 1(b)는 음성 도메인에서 상당하는 CELP 코드북의 Voronoi-region 형태를 도시한 도면. Figure 1 (a) is a view showing a CELP codebook example Voronoi- region form in the residual area (residual domain), Figure 1 (b) shows a Voronoi-region type of CELP codebook corresponding to in the speech domain.

도 2는 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 장치의 구성도. Figure 2 is a block diagram of a quantization apparatus for speech signals according to an embodiment of the present invention.

도 3은 KLT의 특성을 설명하기 위한 Voronoi-region 형태를 도시한 도면. Figure 3 shows a Voronoi-region form for explaining the characteristics of the KLT.

도 4는 KLT의 특성을 설명하기 위한 Voronoi-region 형태를 도시한 도면. Figure 4 shows a Voronoi-region form for explaining the characteristics of the KLT.

도 5는 본 발명의 일 실시예에 따른 양자화 장치에 의한 Voronoi-region 형태를 도시한 도면. 5 shows a Voronoi-region type of a quantization apparatus according to an embodiment of the present invention.

도 6은 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 장치의 RD 특성 그래프. 6 is the invention of an embodiment in accordance with the voice signal to quantization apparatus of the RD characteristic graphs.

도 7은 훈련(training) 신호와 시험(test) 신호가 불일치(mismatch) 하는 경우의 RD 특성 그래프. 7 is RD characteristic graph in the case of training (training) signal and a test (test) signal the discrepancy (mismatch).

도 8은 본 발명의 일 실시예에 따른 음성신호 양자화 장치의 RD 성능을 기록한 테이블. Figure 8 is a table for recording the RD performance of the audio signal quantization apparatus according to one embodiment of the present invention.

도 9는 본 발명의 일 실시예에 따른 음성신호에 대한 양자화 방법의 흐름도. 9 is a flowchart of a quantization method for a speech signal according to one embodiment of the present invention.

Claims (19)

  1. 음성신호에 대한 양자화 장치에 있어서, In the quantization apparatus for a speech signal,
    (a) 입력되는 음성신호를 KLT 도메인으로 변환하는 KLT부, (A) KLT unit for converting the audio signal input to the KLT domain,
    (b) 상기 KLT 도메인으로 변환된 음성신호의 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 표현하는 격자 벡터(lattice vector) 코드 벡터를 적응적으로 형성하여, 상기 음성신호를 상기 코드 벡터로 변환하는 격자 벡터 양자화부, (B) by forming a probability density area in which the function can be the code vector distribution of the audio signal converted to the KLT domain lattice vector (lattice vector) code vector representing a grid adaptively, wherein the voice signal lattice vector quantization unit to convert the code vectors,
    (c) 적응적으로 선택된 무손실 코드북을 참조하여, 상기 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어로 변환하고, 상기 부호어에 대응하는 인덱스를 전송하는 무손실 부호화부, (C) lossless coding unit that refers to a lossless code book selected adaptively by the length according to the occurrence probability of the code vector to the codevector conversion language and other symbols, and transmitting the index corresponding to the codeword,
    (d) 상기 무손실 부호화부로부터 수신한 상기 인덱스에 기초하여, 상기 부호어를 상기 코드 벡터에 대응하는 심볼로 역변환하는 무손실 복호화부 및 (D) on the basis of the said index received from the lossless coding unit lossless decoding unit for inversely converting the codeword to the symbols corresponding to the code vector, and
    (e) 상기 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 형성하여 상기 역변환된 심볼을 이산화된 코드 벡터로 출력하는 격자 벡터 복호화부 (E) lattice vector decoding unit for the probability density function is output to a discrete code vector to said inverse transform to form a zone in a grid symbol which may be present in the code vector distribution
    를 포함하는 양자화 장치. Quantization device comprising a.
  2. 제 1 항에 있어서, According to claim 1,
    상기 KLT부는, The KLT unit,
    이전 프레임에서 양자화된 음성신호에 기초하여 현재 프레임의 선형 예측(Linear Predictive) 계수를 추정하고, 상기 선형 예측 계수에 기초하여 생성된 고유 벡터 행렬을 이용하여 상기 입력되는 음성신호를 상기 KLT 도메인으로 변환하는 것인 양자화 장치. On the basis of the speech signal quantized in the previous frame to estimate the linear prediction (Linear Predictive) coefficients of the current frame, and converts the voice signal which is the input by using the eigenvector matrix is ​​generated based on the linear prediction coefficients to the KLT domain a quantization unit to.
  3. 제 1 항에 있어서, According to claim 1,
    (f) KLT에 의해 얻어진 음성신호에 대한 코드 벡터를 저장한 코드북을 KLT 도메인 통계치에 따라 복수개로 분류하여 구비하는 코드북 데이터베이스 (F) the codebook database for the codebook which stores the code vectors for a speech signal obtained by KLT provided classified into a plurality according to the KLT domain statistics
    를 더 포함하는 것인 양자화 장치. Quantization device further comprising.
  4. 제 3 항에 있어서, 4. The method of claim 3,
    (g) 상기 KLT 도메인으로 변환된 음성신호에 대한 고유값(eigenvalue)에 기초하여 상기 코드북 데이터베이스에서 최적의 코드북을 선택하는 코드북 선택부 (G) the codebook selection section on the basis of the eigenvalue (eigenvalue) of the audio signal converted to the KLT domain select the optimal codebook in the codebook database
    를 더 포함하는 것인 양자화 장치. Quantization device further comprising.
  5. 제 4 항에 있어서, 5. The method of claim 4,
    상기 격자 벡터 양자화부는 상기 최적의 코드북에 실려 있는 코드 벡터들과 상기 변환된 음성신호 간의 왜곡값에 기초하여 최적의 코드 벡터를 선택하는 것인 양자화 장치. The lattice vector quantization unit in the quantization unit to select an optimal code vector on the basis of the distortion value between the converted voice signal with the code vectors as listed in the optimized codebook.
  6. 제 4 항에 있어서, 5. The method of claim 4,
    상기 코드북 선택부는 하기 수학식 14에 기초하여 상기 최적의 코드북을 선택하되, But to the codebook selection unit based on the equation (14) selecting the optimum codebook,
    상기 격자 벡터 코드 벡터는 상기 입력되는 음성 신호가 평균이 0이고 분산이 { The grating vector code vectors are distributed audio signals in which the type and the average is zero {
    Figure 112009040383843-pat00020
    } i=1,… } I = 1, ... k 인 가우시안(Gaussian) 분포를 갖는 경우에 생성되며, 하기 { It is generated when having the k of Gaussian (Gaussian) distribution, to {
    Figure 112009040383843-pat00021
    }는 하기의 수학식 14에 의해서 결정되는 j 번째 클래스의 i 번째 고유값이고, 하기 λ i 는 상기 입력되는 음성신호의 i 번째 고유값인 것인 양자화 장치. } Is to the equation (14) to an i-th eigenvalue of the j-th class, as determined by λ i are the quantization device as the i-th eigenvalue of the speech signal that is the input.
    (수학식 14) (Equation 14)
    Figure 112009040383843-pat00022
  7. 제 1 항에 있어서, According to claim 1,
    상기 무손실 부호화부는 허프만 부호화를 이용하는 것인 양자화 장치. The lossless encoding unit of the quantization unit to use the Huffman encoding.
  8. 제 5 항에 있어서, 6. The method of claim 5,
    상기 코드북 선택부는 상기 입력되는 음성신호의 고유값과 근사한 고유값이 할당된 코드북을 상기 최적의 코드북으로 선택하는 것인 양자화 장치. The codebook selection unit of the quantization unit to choose a unique value and the approximate specific values ​​are assigned codebook of the speech signal which is the input to the optimal codebook.
  9. 제 5 항에 있어서, 6. The method of claim 5,
    상기 격자 벡터 양자화부는 하기의 수학식 15에 기초하여 상기 왜곡값을 산출하되, 하기 Us k 는 상기 입력되는 음성신호에 고유 벡터 행렬을 곱한 값이고, 하기 c^ i , j k 는 Us k 에 대한 j 번째 클래스의 i 번째 코드북인 것인 양자화 장치. But on the basis of the equation (15) below the lattice vector quantization unit calculates the distortion value, to Us k is the product of the eigenvector matrix to the audio signal that is the input value, to c ^ i, j k is about Us k quantization apparatus of the i-th codebook in the j-th class.
    (수학식 15) (Equation 15)
    ε=(Us k -c^ i , j k ) T (Us k -c^ i , j k ) ε = (Us k -c ^ i , j k) T (Us k -c ^ i, j k)
  10. 제 9 항에 있어서, 10. The method of claim 9,
    상기 격자 벡터 양자화부는 최소 왜곡값을 갖는 코드 벡터를 상기 최적의 코드 벡터로 선택하는 것인 양자화 장치. The lattice vector quantization unit minimum distortion value with the code vectors of the optimal code vector to choose which is the quantization device.
  11. 제 2 항에 있어서, Article 2 of the method,
    상기 KLT부는 The KLT unit
    현재 프레임의 상기 선형 예측 계수에 기초하여 고유값과 고유 벡터 행렬을 각각 검출하고, 상기 인덱스에 대응하는 코드 벡터와 상기 고유 벡터 행렬을 이용하여 상기 이산화된 코드 벡터를 역KLT 변환하는 것인 양자화 장치. A quantization unit to inverse KLT transforms the current on the basis of the linear prediction coefficients of the frame and respectively detecting the eigenvalues ​​and eigenvector matrix, wherein the using the eigenvector matrix as the code vector corresponding to the index dioxide codevector .
  12. 음성신호에 대한 코드 벡터가 저장된 복수의 코드북이 구비된 양자화 장치의 상기 음성신호에 대한 양자화 방법에 있어서, In the quantization method for the speech signal of the quantization device having a plurality of codebooks, the code vectors for a speech signal is stored,
    a) 입력되는 음성신호를 KLT 도메인으로 변환하는 단계, a) converting the speech signal to be input to the KLT domain,
    b) 상기 KLT 도메인으로 변환된 음성신호의 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 표현하는 격자 벡터(lattice vector) 코드 벡터를 적응적으로 형성하여 상기 음성신호를 상기 코드 벡터로 변환하는 단계, b) lattice vector (lattice vector) the code vectors to be formed adaptively the encoding the speech signal representing a region in which the probability density function may be present in the code vector distribution of the audio signal converted to the KLT domain in a grid vector converting, the
    c) 적응적으로 선택된 무손실 코드북을 참조하여, 상기 코드 벡터를 상기 코드 벡터의 발생 확률에 따라 길이가 다른 부호어로 무손실 부호화하는 단계, c) the step of adaptively with reference to the selected lossless codebook, a length of the lossless encoding language and other symbols according to the probability of occurrence of the code vector to the codevector,
    d) 상기 부호어에 대응하는 인덱스를 전송하는 단계, d) transmitting the index corresponding to the codeword,
    e) 상기 수신한 인덱스에 기초하여, 상기 부호어를 상기 코드 벡터에 대응하는 심볼로 역변환하는 단계 및 e) step of inverse transform to the symbols based on the received index, corresponding to the codeword in the code vectors and
    f) 상기 코드 벡터 분포의 확률 밀도 함수가 존재할 수 있는 영역을 격자 형태로 형성하여 상기 역변환된 심볼을 이산화된 코드 벡터로 출력하는 단계 f) outputting the said inversion symbol to form a region that may be present in the probability density function of the code vector distribution in a grid with discrete code vector
    를 포함하는 양자화 방법. Quantization method comprising a.
  13. 제 12 항에 있어서, Of claim 12 wherein the method,
    상기 격자 벡터 코드 벡터는 상기 입력되는 음성 신호가 평균이 0이고 분산이 { The grating vector code vectors are distributed audio signals in which the type and the average is zero {
    Figure 112009040383843-pat00023
    } i=1,… } I = 1, ... k 인 가우시안(Gaussian) 분포를 갖는 경우에 생성되며, 하기 { It is generated when having the k of Gaussian (Gaussian) distribution, to {
    Figure 112009040383843-pat00024
    }는 하기의 수학식 16에 의해서 결정되는 j 번째 클래스의 i 번째 고유값이고, 하기 λ i 는 상기 입력되는 음성신호의 i 번째 고유값인 것인 양자화 방법. } The following equation (16) in by determining which j-th class for the i-th eigenvalues, and to λ i is the input voice signal of the i-th eigenvalues would quantization method.
    (수학식 16) (Equation 16)
    Figure 112009040383843-pat00025
  14. 제 12 항에 있어서, 13. The method of claim 12,
    상기 a) 단계는 Wherein the a) comprises:
    이전 프레임에서 양자화된 음성신호에 기초하여 현재 프레임의 선형 예측(Linear Predictive) 계수를 추정하고, 상기 선형 예측 계수에 기초하여 생성된 고유 벡터 행렬을 이용하여 상기 입력되는 음성신호를 상기 KLT 도메인으로 변환하는 것인 양자화 방법. On the basis of the speech signal quantized in the previous frame to estimate the linear prediction (Linear Predictive) coefficients of the current frame, and converts the voice signal which is the input by using the eigenvector matrix is ​​generated based on the linear prediction coefficients to the KLT domain the quantization method to.
  15. 제 12 항에 있어서, 13. The method of claim 12,
    g) 상기 KLT 도메인으로 변환된 음성신호에 대한 고유값(eigenvalue)에 기초하여 코드북 데이터베이스에서 최적의 코드북을 선택하는 단계 및 g) selecting an optimal codebook from the codebook database based on the eigenvalue (eigenvalue) of the audio signal converted to the KLT domain and
    h) 상기 최적의 코드북에 실려 있는 코드 벡터들과 상기 변환된 음성신호 간의 왜곡값에 기초하여 최적의 코드 벡터를 선택하는 단계 h) a step of selecting an optimal code vector based on the distortion value between the converted voice signal with the code vectors as listed in the optimal codebook
    를 더 포함하는 양자화 방법. A quantization method further includes.
  16. 제 12 항에 있어서, 13. The method of claim 12,
    상기 c) 단계는 허프만 부호화를 이용하는 것인 양자화 방법. A quantization method step c) is by the Huffman encoding.
  17. 제 15 항에 있어서, 16. The method of claim 15,
    상기 g) 단계는 상기 변환된 음성신호의 고유값과 근사한 고유값이 할당된 코드북을 상기 최적의 코드북으로 선택하는 것인 양자화 방법. The g) step is a quantization method for selecting a codebook with the unique value and the approximate specific values ​​of the audio signal obtained by the conversion is assigned to the optimum codebook.
  18. 제 15 항에 있어서, 16. The method of claim 15,
    상기 h) 단계는 최소 왜곡값을 갖는 코드 벡터를 상기 최적의 코드 벡터로 선택하는 것인 양자화 방법. Wherein h) step is a quantization method for selecting the optimum code vector, the code vector having the smallest distortion value.
  19. 제 15 항에 있어서, 16. The method of claim 15,
    i) 현재 프레임의 상기 선형 예측 계수에 기초하여 고유값과 고유 벡터 행렬을 각각 검출하고, 상기 인덱스에 대응하는 코드 벡터와 상기 고유 벡터 행렬을 이용하여 상기 이산화된 코드 벡터를 역KLT 변환하는 단계 i) detecting each of the eigenvalue and eigenvector matrix and an inverse KLT transforms the digitized code vector by using the eigenvector matrix as the code vector corresponding to the index based on the linear prediction coefficients of the current frame
    를 더 포함하는 양자화 방법. A quantization method further includes.
KR20090060030A 2009-07-02 2009-07-02 Audio signal quantization apparatus and method KR101056462B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20090060030A KR101056462B1 (en) 2009-07-02 2009-07-02 Audio signal quantization apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20090060030A KR101056462B1 (en) 2009-07-02 2009-07-02 Audio signal quantization apparatus and method

Publications (2)

Publication Number Publication Date
KR20110002533A true KR20110002533A (en) 2011-01-10
KR101056462B1 true KR101056462B1 (en) 2011-08-11

Family

ID=43610716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20090060030A KR101056462B1 (en) 2009-07-02 2009-07-02 Audio signal quantization apparatus and method

Country Status (1)

Country Link
KR (1) KR101056462B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101413229B1 (en) * 2013-05-13 2014-08-06 한국과학기술원 DOA estimation Device and Method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100248072B1 (en) 1997-11-11 2000-03-15 정선종 Image compression/decompression method and apparatus using neural networks
KR20030087373A (en) * 2002-05-08 2003-11-14 삼성전자주식회사 Vector quantization and inverse vector quantization apparatus for the speech signal and method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100248072B1 (en) 1997-11-11 2000-03-15 정선종 Image compression/decompression method and apparatus using neural networks
KR20030087373A (en) * 2002-05-08 2003-11-14 삼성전자주식회사 Vector quantization and inverse vector quantization apparatus for the speech signal and method thereof

Also Published As

Publication number Publication date Type
KR20110002533A (en) 2011-01-10 application

Similar Documents

Publication Publication Date Title
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US20080147414A1 (en) Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
US7392179B2 (en) LPC vector quantization apparatus
US20020161576A1 (en) Speech coding system with a music classifier
US7991621B2 (en) Method and an apparatus for processing a signal
US20090157413A1 (en) Speech encoding apparatus and speech encoding method
WO2012046685A1 (en) Coding method, decoding method, coding device, decoding device, program, and recording medium
US6134520A (en) Split vector quantization using unequal subvectors
US5890110A (en) Variable dimension vector quantization
US20100174547A1 (en) Speech coding
EP2234104A1 (en) Vector quantizer, vector inverse quantizer, and methods therefor
US20070112564A1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US20080270124A1 (en) Method and apparatus for encoding and decoding audio/speech signal
US5737716A (en) Method and apparatus for encoding speech using neural network technology for speech classification
US20100324912A1 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
US20090198491A1 (en) Lsp vector quantization apparatus, lsp vector inverse-quantization apparatus, and their methods
US20090222261A1 (en) Apparatus and Method for Encoding and Decoding Signal
US8392178B2 (en) Pitch lag vectors for speech encoding
US20040153317A1 (en) 600 Bps mixed excitation linear prediction transcoding
US20100145688A1 (en) Method and apparatus for encoding/decoding speech signal using coding mode
US20090281811A1 (en) Transform coder and transform coding method
US20120271629A1 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
US20100174542A1 (en) Speech coding
US20130290003A1 (en) Method and apparatus for encoding and decoding high frequency for bandwidth extension
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140702

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee