WO2024053854A1 - 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체 - Google Patents

비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체 Download PDF

Info

Publication number
WO2024053854A1
WO2024053854A1 PCT/KR2023/010532 KR2023010532W WO2024053854A1 WO 2024053854 A1 WO2024053854 A1 WO 2024053854A1 KR 2023010532 W KR2023010532 W KR 2023010532W WO 2024053854 A1 WO2024053854 A1 WO 2024053854A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization
residual
beam search
vector
input
Prior art date
Application number
PCT/KR2023/010532
Other languages
English (en)
French (fr)
Inventor
김남수
안성환
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Publication of WO2024053854A1 publication Critical patent/WO2024053854A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0015Viterbi algorithms

Definitions

  • the present invention relates to a residual vector quantization apparatus, method, and computer-readable medium, and to a residual vector quantization apparatus, method, and computer-readable medium using Viterbi beam search.
  • the codec converts the signal into a digital signal and restores it to the original signal, and is used for storing and transmitting/receiving the signal.
  • Multimedia are analog signals. Through a codec that digitally encodes this and restores it to the original signal, it has become possible to dramatically reduce the size of high-capacity multimedia. Codecs make file storage and streaming easier and, conversely, allow you to enjoy higher-definition video.
  • Figure 1 is a diagram to explain vector quantization used in a codec.
  • a codec may be composed of an encoder that compresses an input signal and a decoder that restores the compressed signal to the original signal.
  • quantization into a bitstream of 0 and 1 is performed at the end of the encoder.
  • quantization error The difference between the signal before and after quantization is called quantization error, and various quantization techniques are used to reduce the quantization error.
  • Vector quantization refers to a lossy image compression technique that compares tiles of a sampled image with many image patterns stored in a codebook, a lookup table, and expresses them as code numbers (vector indexes) of similar patterns. As the degree of the vector increases, the quantization error decreases, but the coding complexity increases exponentially, and as the compression rate increases, image quality deterioration such as segmentation effects and edge damage occurs.
  • vector quantization refers to selecting the code vector closest to the quantization target vector from a code book having a plurality of representative vectors (code vectors), and selecting the index assigned to the selected code vector ( This is a method of outputting (sign) as a quantization result.
  • vector quantization various technologies are used to reduce the amount of information and calculation or reduce quantization error.
  • residual vector quantization is a method of reducing quantization error.
  • Patent Registration No. 10-1390051 title of the invention: vector quantization device, vector dequantization device, and such method, registration date: April 22, 2014
  • Patent Registration date: April 22, 2014 has been disclosed as prior art related to the present invention.
  • the present invention was proposed to solve the above problems of the previously proposed methods.
  • each of the residual vector quantization In the first step, the Viterbi beam search is used to output B predetermined paths that minimize the quantization error, and in the last step, the quantization result that minimizes the final quantization error among the B paths output is output, making quantization better than existing residual vector quantization.
  • the purpose is to provide a residual vector quantization device, method, and computer-readable medium using Viterbi beam search that can reduce errors.
  • the present invention is a technology that can improve residual vector quantization used in various codecs, and can be easily applied to multimedia codecs that use residual vector quantization by modifying only the encoding algorithm, improving the performance of the codec.
  • Another object is to provide a residual vector quantization device, method, and computer-readable medium using Viterbi beam search that can be easily improved.
  • the present invention effectively detects a path that minimizes the quantization error in residual vector quantization, and thus can be used to construct a codebook for a codec that can reduce the quantization error, using Viterbi beam search, which can further reduce the quantization error.
  • Another object is to provide a residual vector quantization apparatus, method, and computer-readable medium using residual vector quantization.
  • a residual vector quantization method in which an input vector subject to quantization is quantized using N codebooks each consisting of a plurality of code vectors,
  • a structural feature of the method is that it includes a step of outputting a quantization result that minimizes the final quantization error among the B N-th residual vectors.
  • the Viterbi beam search Preferably, the Viterbi beam search
  • B predetermined paths can be found within a range of 1 to M that minimizes the quantization error.
  • a computer-readable medium implementing the residual vector quantization method using Viterbi beam search according to the characteristics of the present invention to achieve the above object
  • the residual vector quantization method using Viterbi beam search according to the present invention is characterized in that it is implemented in the form of program instructions.
  • An N-level residual vector quantization device that quantizes input vectors subject to quantization using N codebooks each consisting of a plurality of code vectors,
  • a codebook storage unit that stores N codebooks consisting of a plurality of code vectors
  • the input vector is quantized using the N codebooks, and a quantization unit is configured to apply Viterbi Beam Search to each step to output a quantization result that minimizes the final quantization error. .
  • the Viterbi beam search Preferably, the Viterbi beam search
  • B predetermined paths can be found within a range of 1 to M that minimizes the quantization error.
  • the quantization unit More preferably, the quantization unit,
  • the quantization result can be output by performing the step of outputting a quantization result that minimizes the final quantization error among the B N-th residual vectors.
  • the residual vector quantization device, method, and computer-readable medium using Viterbi beam search proposed in the present invention, when the input vector to be quantized is quantized using N codebooks each consisting of a plurality of code vectors, In each step of residual vector quantization, B predetermined paths that minimize the quantization error are output using Viterbi beam search, and in the last step, the quantization result that minimizes the final quantization error among the B paths output is output, Quantization error can be reduced compared to residual vector quantization.
  • residual vector quantization is a technology that can improve residual vector quantization used in various codecs. It can be easily applied to multimedia codecs that use by modifying the encoding algorithm alone, making it possible to easily improve the performance of the codec.
  • a path that minimizes the quantization error in residual vector quantization is effectively detected, thereby reducing the quantization error.
  • the quantization error can be further reduced by using it to construct a codebook for a codec that can be reduced.
  • 1 is a diagram to explain vector quantization used in a codec.
  • Figure 2 is a diagram showing the configuration of a residual vector quantization device using Viterbi beam search according to an embodiment of the present invention.
  • Figure 3 is a diagram showing a quantization unit in a residual vector quantization device using Viterbi beam search according to an embodiment of the present invention.
  • Figure 4 is a diagram illustrating the Viterbi beam search used in a residual vector quantization device using Viterbi beam search according to an embodiment of the present invention.
  • Figure 5 is a diagram illustrating the flow of a residual vector quantization method using Viterbi beam search according to an embodiment of the present invention.
  • Figure 6 is a diagram showing an algorithm of a residual vector quantization method using Viterbi beam search according to an embodiment of the present invention.
  • Figure 7 is a flowchart showing the algorithm of the residual vector quantization method using Viterbi beam search according to an embodiment of the present invention.
  • S200 Receiving B first residual vectors as input and obtaining B predetermined second residual vectors that minimize quantization error for M code vectors in the second codebook using Viterbi beam search.
  • FIG. 2 is a diagram illustrating the configuration of a residual vector quantization device 100 using Viterbi Beam Search according to an embodiment of the present invention.
  • the residual vector quantization device 100 using Viterbi beam search according to an embodiment of the present invention divides the input vector to be quantized into N codebooks each consisting of a plurality of code vectors.
  • An N-level residual vector quantization device 100 that quantizes using an N-level residual vector, comprising: an input unit 110 that receives an input vector to be quantized; A codebook storage unit 120 that stores N codebooks consisting of a plurality of code vectors; and a quantization unit 130 that quantizes the input vector using N codebooks and outputs a quantization result that minimizes the final quantization error by applying Viterbi beam search to each step.
  • the existing residual vector quantization method consisting of N steps is as follows.
  • the same operation as the existing vector quantization is performed, and from the next step, quantization is performed by receiving the quantization error from the previous step as input.
  • the codebook of the nth step is , let the input vector signal be y.
  • the distance from the input y among the code vectors in the codebook is the smallest vector Quantize y with in other words It is wonderful.
  • the quantization error is Taking as the input of the second step, among the code vectors in the second codebook The vector with the smallest distance from Quantize it with in other words, Since it is approximated by That's cool.
  • the quantization error of the second stage is As the input of the third step, Quantize it as By continuing to repeat this, when quantization is finally completed up to the Nth step, y is It is approximated as , which means that the input vector y is a sequence of natural numbers ⁇ k 1 , k 2 , ... It is quantized and encoded as , k N ⁇ .
  • the decoder uses ⁇ k 1 , k 2 , ... instead of y. , k N ⁇ as input and the approximate value of y It is decoded as
  • the present invention deals with a method of obtaining multiple candidates without performing quantization only once to minimize the quantization error at each step in residual vector quantization.
  • the Viterbi beam search algorithm is used, and through this, the final quantization error can be made smaller than or at least equal to the existing residual vector quantization method.
  • FIG. 3 is a diagram illustrating the quantization unit 130 in the residual vector quantization device 100 using Viterbi beam search according to an embodiment of the present invention.
  • the residual vector quantization device 100 using Viterbi beam search according to an embodiment of the present invention receives the input vector y and codebook Quantization results can be output using a search algorithm.
  • the Viterbi beam search is a compromise between the conventional residual vector quantization method consisting of N steps as described above and the method of applying Viterbi Search to residual vector quantization, and the M For all code vectors, B predetermined paths within a range of 1 to M that minimize the quantization error can be found.
  • Viterbi search is performed on the registry. Let us explain the method applied to dual vector quantization.
  • Viterbi Search is an algorithm that searches for the optimal path in a given situation. Applying Viterbi search to residual vector quantization is as follows.
  • the input of the nth step is the output of the n-1th step, and the output of the nth step is the code vectors x 1 n , x 2 n , within the codebook , x M n is the minimum quantization error when quantized with the corresponding vector. If this is repeated until the last step, M final outputs are produced, of which one path with the minimum quantization error is selected.
  • the input and output of each step are one vector and a path that minimizes the quantization error within the codebook is selected, whereas in the residual quantization method using Viterbi search, the input and output of each step is one vector.
  • the outputs are M vectors, and at each step, a path that minimizes the quantization error for all M code vectors is selected. Therefore, the final quantization error is always less than the existing method, but the amount of computation and the required memory size are M times greater.
  • the Viterbi beam search used in the present invention is a compromise between the existing method and the method of applying Viterbi search to residual vector quantization, and calculates the quantization error for all M code vectors in the codebook at each step of residual vector quantization. Instead of finding the path that minimizes it, you can select and store only B paths that result in the smallest quantization error. Here, 1 ⁇ B ⁇ M. Therefore, the final quantization error is less than the existing residual vector quantum method and more than the method applying Viterbi search to residual vector quantization, and the amount of computation and required memory size are B times that of the existing method.
  • FIG. 4 is a diagram illustrating the Viterbi beam search used in the residual vector quantization apparatus 100 using Viterbi beam search according to an embodiment of the present invention.
  • B 1
  • the quantization error at each step Since one path that minimizes is selected the result is the same as the existing residual vector quantization
  • the result is the same as the result of applying the algorithm.
  • Figure 5 is a diagram illustrating the flow of a residual vector quantization method using Viterbi beam search according to an embodiment of the present invention. As shown in Figure 5, in the residual vector quantization method using Viterbi beam search according to an embodiment of the present invention, each step is performed in the residual vector quantization device 100, and an input vector is received as an input.
  • a step of acquiring B predetermined second residual vectors that minimize the quantization error using Viterbi beam search (S200), a step of repeating step S200 for the third codebook to the Nth codebook (S300), and B It may be implemented by including a step (S400) of outputting a quantization result that minimizes the final quantization error among the N-th residual vectors.
  • the present invention relates to a residual vector quantization method using Viterbi beam search, and may be composed of software recorded in hardware including memory and processor.
  • the residual vector quantization method using the Viterbi beam search of the present invention can be stored and implemented in personal computers, laptop computers, server computers, PDAs, smartphones, tablet PCs, etc. Below, for convenience of explanation, the subject performing each step may be omitted.
  • the problem of residual vector quantization can be defined as follows.
  • the Viterbi beam search algorithm can be performed at each stage of residual vector quantization to achieve the purpose.
  • vector quantization is divided into N stages, and in the nth stage , the nth codebook -x n-1 candidate vector is received as input, and after performing Viterbi beam search, yx 1 -x 2 -... to make this smallest.
  • -x n-1 -x n can be output B times. If we do this from 1 to N steps, we get ⁇ k 1 , k 2 , ... that minimizes , k N ⁇ can be obtained.
  • step S400 quantization results that minimize the final quantization error among B N residual vectors ⁇ k 1 , k 2 , ... , k N ⁇ can be output.
  • the quantization candidate number B obtained in each step of the present invention can be set as one of the natural numbers from 1 to M.
  • the probability of quantizing X N to have a smaller quantization error increases.
  • FIG. 6 is a diagram showing the algorithm of the residual vector quantization method using Viterbi beam search according to an embodiment of the present invention
  • Figure 7 is a diagram showing the algorithm of residual vector quantization using Viterbi beam search according to an embodiment of the present invention.
  • T 1 is a natural number matrix of size N ⁇ B
  • T 2 is a natural number matrix of size N ⁇ B
  • k is a matrix of size N that stores the quantized result
  • each element of T 1 , T 2 , and k is 1. , 2, ... , B must be able to be stored.
  • the present invention may include a computer-readable medium containing program instructions for performing operations implemented in various communication terminals.
  • computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD_ROM and DVD, and floptical disks. It may include magneto-optical media and hardware devices specifically configured to store and perform program instructions, such as ROM, RAM, flash memory, etc.
  • Such computer-readable media may include program instructions, data files, data structures, etc., singly or in combination.
  • program instructions recorded on a computer-readable medium may be specially designed and configured to implement the present invention, or may be known and available to those skilled in the computer software art.
  • it may include not only machine language code such as that produced by a compiler, but also high-level language code that can be executed by a computer using an interpreter, etc.
  • the input vector to be quantized is divided into N, each consisting of a plurality of code vectors.
  • B predetermined paths that minimize the quantization error are output using Viterbi beam search at each stage of residual vector quantization, and the final quantization error is minimized among the B paths output in the last stage.
  • the residual vector quantization device 100 is a technology that can improve residual vector quantization used in various codecs, It can be applied to codecs that use dual vector quantization, and when storing or communicating signals, the quantization error can be small and high quality compared to conventional technology. In particular, it can be very easily applied to existing codecs because you only need to modify the quantization algorithm of the encoder without having to change the entire existing codec.
  • the codebook of the codec can be reconfigured so that the quantization error is minimized, and in this case, the quantization error can be further reduced.
  • the present invention can be applied to the field of lossy compression, which digitizes and stores multimedia information such as voice, image, and video, and the field of communication, which transmits and receives information, to improve the quality of multimedia.
  • vector quantization is often used in recent generation models using deep learning, and most of them use the conventional vector quantization method. If the present invention is applied to the models, it is expected that the quality of voice, images, and video generated by the deep learning model will be improved.
  • the global video encoder market is expected to grow from $1.9 billion in 2020 to $2.2 billion in 2025 due to ease of network connection, use of cloud services for large-capacity data storage, and development of highly efficient video coding (MarketsandMarkets, “ideo Encoder Market with COVID-19 Impact by Number of Channel (Single, Multichannel), Mounting Type (Standalone, Rack-mounted), Application (Broadcast, Surveillance (Commercial, Residential, Institutional)), and Geography - Global Forecast to 2025”, October 2020).
  • the present invention is a technology that improves residual vector quantization, a technique commonly used in various codecs, it is expected to provide an excellent solution in the above-mentioned codec market.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Error Detection And Correction (AREA)

Abstract

본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있다.

Description

비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체
본 발명은 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 관한 것으로서, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 관한 것이다.
코덱은 신호를 디지털 신호로 변환해주고 다시 원본 신호로 복원해 주는 역할을 하며, 신호의 저장과 송/수신에 활용된다. 멀티미디어들은 아날로그 신호들이다. 이것을 디지털로 부호화하고, 다시 원본 신호로 복원하는 코덱을 통해 고용량의 멀티미디어 크기를 획기적으로 줄일 수 있게 되었다. 코덱은 파일 저장과 스트리밍을 수월하게 했으며, 역으로 더욱 고화질의 영상을 즐길 수 있게 한다.
도 1은 코덱에서 사용되는 벡터 양자화를 설명하기 위해 도시한 도면이다. 도 1에 도시된 바와 같이, 코덱은 입력 신호를 압축하는 인코더와, 압축된 신호를 본래의 신호로 복원하는 디코더로 구성될 수 있다. 한정된 비트(bit)로 신호를 표현하기 위해 인코더의 마지막에는 0과 1의 비트스트림(bitstream)으로 양자화(quantization)하는 작업이 들어간다. 이 양자화 전/후 신호의 차이를 양자화 오차(quantization error)라고 하며, 양자화 오차를 줄이기 위해 다양한 양자화 기법들이 사용된다.
벡터 양자화는 샘플링한 영상의 타일을 룩업 테이블인 코드북에 저장된 많은 영상 패턴들과 비교하여 유사한 패턴의 부호 번호(벡터 인덱스)로 표현하는 손실 영상 압축 기법을 말한다. 벡터의 차수가 클수록 양자화 오차가 줄어드나 부호화 복잡도는 기하급수적으로 증가하며, 압축률을 높일수록 구획 효과, 에지 훼손 등의 화질 열화가 생긴다.
보다 구체적으로, 벡터 양자화(Vector Quantization)란, 대표적인 벡터(코드 벡터)를 복수 개 가지는 코드북(code book) 중에서, 양자화 대상 벡터에 가장 가까운 코드 벡터를 선택하고, 선택된 코드 벡터에 부여되어 있는 인덱스(부호)를 양자화 결과로 출력하는 방법이다. 벡터 양자화에서는, 사용할 수 있는 정보량에 따라 코드북의 사이즈가 결정된다. 예를 들면, 8비트의 정보량으로 벡터 양자화를 행할 경우, 코드북은 256(=28) 종류의 코드 벡터를 이용하여 구성할 수 있다.
벡터 양자화에 있어서 정보량, 계산량을 저감하거나 양자화 오차를 줄이기 위해 여러 가지 기술이 이용되고 있다. 그중에서 레지듀얼 벡터 양자화 (Residual Vector Quantization)는 양자화 오차를 줄이는 방법이다.
한편, 본 발명과 관련된 선행기술로 등록특허 제10-1390051호(발명의 명칭: 벡터 양자화 장치, 벡터 역양자화 장치, 및 이러한 방법, 등록일자: 2014년 04월 22일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 멀티미디어 코덱에서 인코딩 알고리즘만의 수정을 통해 쉽게 적용할 수 있어, 코덱의 성능을 쉽게 개선할 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 다른 목적으로 한다.
그뿐만 아니라, 본 발명은, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 양자화 오차를 줄일 수 있는 코덱의 코드북 구성에 활용하여 양자화 오차를 더욱 줄 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은,
양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 레지듀얼 벡터 양자화 방법으로서,
(1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;
(2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;
(3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및
(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 비터비 빔 서치는,
각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾을 수 있다.
바람직하게는,
멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여줄 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법이 구현된 컴퓨터 판독 가능 매체는,
본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법이 프로그램 명령어의 형태로 구현된 것을 그 구성상의 특징으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치는,
양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치로서,
양자화 대상이 되는 상기 입력 벡터를 입력으로 받는 입력부;
복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부; 및
상기 입력 벡터를 상기 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치(Viterbi Beam Search)를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 비터비 빔 서치는,
각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾을 수 있다.
더욱 바람직하게는, 상기 양자화부는,
(1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;
(2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;
(3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및
(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 수행하여 양자화 결과를 출력할 수 있다.
바람직하게는,
멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여줄 수 있다.
본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 멀티미디어 코덱에서 인코딩 알고리즘만의 수정을 통해 쉽게 적용할 수 있어, 코덱의 성능을 쉽게 개선할 수 있다.
그뿐만 아니라, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 양자화 오차를 줄일 수 있는 코덱의 코드북 구성에 활용하여 양자화 오차를 더욱 줄 수 있다.
도 1은 코덱에서 사용되는 벡터 양자화를 설명하기 위해 도시한 도면.
도 2는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치에서, 양자화부를 도시한 도면.
도 4는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치에서 사용하는 비터비 빔 서치를 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 흐름을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 나타낸 도면.
도 7은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 순서도로 나타낸 도면.
<부호의 설명>
100: 레지듀얼 벡터 양자화 장치
110: 입력부
120: 코드북 저장부
130: 양자화부
S100: 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개의 제1 레지듀얼 벡터를 획득하는 단계
S200: B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계
S300: 단계 S200을 제3 코드북 내지 제N 코드북에 대해 반복하는 단계
S400: B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 2는 본 발명의 일실시예에 따른 비터비 빔 서치(Viterbi Beam Search)를 이용한 레지듀얼 벡터 양자화 장치(100)의 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)는, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치(100)로서, 양자화 대상이 되는 입력 벡터를 입력으로 받는 입력부(110); 복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부(120); 및 입력 벡터를 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부(130)를 포함하는 것을 그 구성상의 특징으로 한다.
이하에서는, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)의 각 구성을 설명하기 전에, 레지듀얼 벡터 양자화에 대해 상세히 설명하도록 한다.
먼저, 벡터 양자화는 미리 정해놓은 벡터들의 집합인 코드북(codebook)을 활용하며, 입력 신호를 코드북 내의 코드 벡터들로 양자화한다. 보다 구체적으로, 코드북 X={x1, x2, …, xM}은 벡터 M개로 이루어져 있으며, 각 벡터 xk는 D 차원이다. 이때 D 차원 입력 벡터 y가 주어지면 y와의 거리
Figure PCTKR2023010532-appb-img-000001
가 가장 작은 벡터 xk로 y를 근사할 수 있으며, 이는 D 차원의 입력 벡터 y를 1부터 M까지의 자연수 중 하나인 k로 양자화하여 인코딩한 것이다. 디코더는 y 대신 k를 입력으로 받아서 y의 근삿값인 xk로 디코딩하게 된다.
벡터 양자화에서 양자화 오차를 줄이려면 코드북 내 벡터의 개수 M이 증가해야 하며, 이는 연산량 및 코드북 크기의 증가로 이어진다. 이때 M은 지수적으로 증가하기 때문에 M을 늘리는 것에는 한계가 있다. 따라서 레지듀얼 벡터 양자화에서는 M을 늘리는 대신 벡터 양자화를 여러 단계로 늘려서 수행한다. 레지듀얼 벡터 양자화에서 양자화 오차를 줄이려면 양자화 단계 수를 선형적으로 늘리면 되기 때문에 벡터 양자화에 비해 연산량 및 메모리 측면에서 효율적이다.
N 단계로 이루어진 기존의 레지듀얼 벡터 양자화 방법은 다음과 같다.
첫 번째 단계에서는 기존 벡터 양자화와 똑같은 작업을 하고, 다음 단계부터는 이전 단계에서의 양자화 오차를 입력으로 받아서 양자화를 진행한다. 보다 구체적으로, n번째 단계의 코드북을
Figure PCTKR2023010532-appb-img-000002
, 입력 벡터 신호를 y라 하자. 첫 번째 단계에서는 코드북 X1 안의 코드 벡터 중에서 입력 y와의 거리
Figure PCTKR2023010532-appb-img-000003
가 가장 작은 벡터
Figure PCTKR2023010532-appb-img-000004
으로 y를 양자화한다. 즉
Figure PCTKR2023010532-appb-img-000005
로 근사한 것이다. 이때 양자화 오차인
Figure PCTKR2023010532-appb-img-000006
을 두 번째 단계의 입력으로 삼아서, 두 번째 코드북 X2 안의 코드 벡터 중
Figure PCTKR2023010532-appb-img-000007
와의 거리가 가장 작은 벡터
Figure PCTKR2023010532-appb-img-000008
로 양자화 한다. 즉,
Figure PCTKR2023010532-appb-img-000009
로 근사한 것이므로 y를
Figure PCTKR2023010532-appb-img-000010
로 근사한 셈이다. 이후 두 번째 단계의 양자화 오차인
Figure PCTKR2023010532-appb-img-000011
을 세 번째 단계의 입력으로 삼아서
Figure PCTKR2023010532-appb-img-000012
으로 양자화한다. 이를 계속 반복하여 최종적으로 N 번째 단계까지 양자화를 마치면 y는
Figure PCTKR2023010532-appb-img-000013
으로 근사되며, 이는 곧 입력 벡터 y를 자연수의 수열 {k1, k2, …, kN}로 양자화하여 인코딩한 것이다. 디코더는 y 대신 {k1, k2, …, kN}를 입력으로 받아서 y의 근삿값인
Figure PCTKR2023010532-appb-img-000014
로 디코딩하게 된다.
이와 같은 기존의 레지듀얼 벡터 양자화는 양자화 오차를 최소화하는 벡터를 각 단계에서 1개씩만 구한다. 하지만, n번째 단계에서 오차를 최소화하는 벡터를 선택해야 n+1번째 단계에서도 양자화 오차가 최소화된다는 보장은 없다. n번째 단계에서 양자화 오차가 조금 큰 벡터로 양자화해야 n+1번째 단계에서 양자화 오차가 최소화되기도 한다.
본 발명은 위의 문제를 해결하기 위해 레지듀얼 벡터 양자화에서 각 단계마다 양자화 오차를 최소화하도록 양자화를 1번만 하지 않고 여러 후보를 구하는 방법을 다룬다. 이때, Viterbi beam search 알고리즘을 이용하며, 이를 통해 최종 양자화 오차가 기존의 레지듀얼 벡터 양자화 방법보다 작거나 적어도 같도록 할 수 있다.
도 3은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서, 양자화부(130)를 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)는, 양자화 대상이 되는 입력 벡터 y와 코드북 Xn을 입력받아, 비터비 빔 서치 알고리즘을 사용해 양자화 결과를 출력할 수 있다. 여기서, 비터비 빔 서치는, 전술한 바와 같은 N 단계로 이루어진 종래의 레지듀얼 벡터 양자화 방법과 비터비 서치(Viterbi Search)를 레지듀얼 벡터 양자화에 적용한 방법을 절충한 방법으로, 각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾을 수 있다.
이하에서는, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)의 양자화부(130)에서 실행하는 레지듀얼 벡터 양자화 방법을 설명하기 위해, 먼저 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법에 관해 설명하도록 한다.
비터비 서치는 주어진 상황에서 최적의 경로를 탐색하는 알고리즘이다. 레지듀얼 벡터 양자화에 비터비 서치를 적용하면 아래와 같다.
첫 번째 단계의 입력은 y이며, 코드북 X1 내의 코드 벡터 xk 1 (k=1, 2, …, M) 각각에 대해 y-xk 1를 계산하여 총 M개의 벡터를 다음 단계로 넘겨준다. 두 번째 단계에서는 X2 내의 코드 벡터 xk 2 (k=1, 2, …, M) 각각에 대해 어떤 입력을 양자화해야 양자화 오차가 최소가 되는지를 찾은 후 해당 양자화 오차를 다음 단계로 넘겨준다. 예를 들어, x1 2 벡터가 M개의 입력 벡터 중 4번째(y-x4 1)와의 양자화 오차가 최소라면, y-x4 1-x1 2를 계산한다. 이런 식으로 모든 xk 2 (k=1, 2, …, M)에 대해 구하므로 총 M개의 벡터를 다음 단계로 넘겨주는 셈이다.
이를 계속 반복하면, n번째 단계의 입력은 n-1번째 단계의 출력이며, n번째 단계의 출력은 해당 단계의 코드북 Xn 내의 코드 벡터 x1 n, x2 n, …, xM n 각각에 대해 해당 벡터로 양자화했을 때의 최소 양자화 오차이다. 이를 마지막 단계까지 반복하면 M개의 최종 출력이 나오는데, 이 중 양자화 오차가 최소인 하나의 경로를 선택한다.
기존 레지듀얼 벡터 양자화와 비교하면, 기존에는 각 단계의 입력과 출력이 1개의 벡터이며 코드북 내에서 양자화 오차를 최소화하는 경로를 선택하는 반면, 비터비 서치를 이용한 레지듀얼 양자화 방법에서 각 단계의 입력과 출력은 M개의 벡터이며, 각 단계마다 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 선택한다. 따라서, 최종 양자화 오차는 항상 기존 방법 이하가 되지만, 연산량과 필요한 메모리 크기가 M배가 된다.
본 발명에서 사용하는 비터비 빔 서치는, 기존 방법과 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법을 절충한 것으로, 레지듀얼 벡터 양자화의 각 단계마다 코드북 내 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 찾는 대신, 양자화 오차가 가장 작아지는 B개의 경로만 선택해 저장할 수 있다. 여기서 1≤B≤M이다. 따라서 최종 양자화 오차는 기존 레지듀얼 벡터 양자와 방법 이하이고, 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법 이상이 되며, 연산량과 필요한 메모리 크기는 기존 방법 대비 B배가 된다.
도 4는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서 사용하는 비터비 빔 서치를 설명하기 위해 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서 사용하는 비터비 빔 서치에서, B=1로 설정하면 각 단계에서 양자화 오차가 최소화되는 1개의 경로를 선택하는 것이므로 기존의 레지듀얼 벡터 양자화의 결과와 같아지고, B=M으로 설정하면 각 단계에서 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 찾으므로 비터비 빔 알고리즘을 적용한 결과와 같아진다.
도 5는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은, 레지듀얼 벡터 양자화 장치(100)에서 각 단계가 수행되며, 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개의 제1 레지듀얼 벡터를 획득하는 단계(S100), B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계(S200), 단계 S200을 제3 코드북 내지 제N 코드북에 대해 반복하는 단계(S300) 및 B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계(S400)를 포함하여 구현될 수 있다.
본 발명은 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법에 관한 것으로서, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.
레지듀얼 벡터 양자화는 문제 정의를 아래와 같이 할 수 있다.
y: 양자화하고자 하는 D 차원의 입력 벡터 신호
X1, X2, …, XN: N개의 코드북. 각 코드북 Xn은 D 차원의 벡터 M개로 이루어짐(
Figure PCTKR2023010532-appb-img-000015
)
목적:
Figure PCTKR2023010532-appb-img-000016
가 최소가 되도록 하는 {k1, k2, …, kN} 구하기 ki∈{1, 2, …, M}
본 발명에서는 목적 달성을 위해 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치 알고리즘을 수행할 수 있다.
보다 구체적으로, 벡터 양자화를 N 단계로 나눠서 진행하는데, n번째 단계에서는 n번째 코드북 Xn과 n-1 단계의 출력인 B개의 y-x1-x2-…-xn-1 후보 벡터를 입력으로 받으며, 비터비 빔 서치를 수행한 후
Figure PCTKR2023010532-appb-img-000017
이 가장 작아지도록 하는 y-x1-x2-…-xn-1-xn를 B개 출력할 수 있다. 이를 1부터 N 단계까지 수행하면 거리
Figure PCTKR2023010532-appb-img-000018
을 최소로 하는 {k1, k2, …, kN}을 얻을 수 있다.
즉, 단계 S100은 레지듀얼 벡터 양자화의 N 단계 중 n=1인 첫 번째 단계로, 입력 벡터를 입력으로 받아 제1 코드북(X1) 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개 즉, 양자화 오차가 작은 순서대로 B개의 제1 레지듀얼 벡터를 후보로 획득할 수 있다.
단계 S200은, 벡터 양자화의 N 단계 중 n=2인 두 번째 단계로, 단계 S100에서 획득한 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북(X2) 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득할 수 있다.
단계 S300은, 벡터 양자화의 n=3인 세 번째 단계부터 N 번째 단계까지로, 이전 단계에서 획득한 제n-1 레지듀얼 벡터를 입력으로 받아 제n 코드북(Xn) 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제n 레지듀얼 벡터를 획득할 수 있다. 마지막 N 번째 단계까지 수행하면, B개의 제N 레지듀얼 벡터가 출력될 수 있다.
단계 S400에서는, B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과인 {k1, k2, …, kN}를 출력할 수 있다.
이때, 본 발명의 각 단계에서 구하는 양자화 후보 개수 B는 1부터 M까지의 자연수 중 하나로 정할 수 있다. B를 늘릴수록 동일한 입력 y와 코드북 X1, X2, …, XN에 대해 더 작은 양자화 오차를 가지도록 양자화할 확률이 높아진다.
도 6은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 나타낸 도면이고, 도 7은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 순서도로 나타낸 도면이다. 여기서, T1은 N×B 크기의 자연수 행렬, T2는 N×B 크기의 자연수 행렬, k는 양자화된 결과를 저장하는 N 크기의 행렬이며, T1, T2, k의 각 원소는 1, 2, …, B를 저장할 수 있어야 한다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 코덱에 적용할 수 있으며, 신호를 저장 또는 통신할 때 종래의 기술 대비 양자화 오차가 작고 고품질이 되도록 처리할 수 있다. 특히, 기존 코덱을 다 바꿀 필요 없이 인코더의 양자화 알고리즘만 수정하면 되기 때문에 기존 코덱에 아주 쉽게 적용할 수 있다.
그뿐만 아니라, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 본 발명에서 제안한 알고리즘을 적용했을 때 양자화 오차가 최소화되도록 코덱의 코드북을 다시 구성할 수도 있으며, 이 경우 양자화 오차를 더욱 줄일 수 있다.
본 발명은 음성, 이미지, 영상 등의 멀티미디어 정보를 디지털화하여 저장하는 손실압축 분야와, 정보를 송신 및 수신하는 통신 분야에 적용하여 멀티미디어의 품질을 높일 수 있다. 또한, 최근 딥러닝을 이용한 생성모델에서 벡터 양자화를 이용하는 경우가 종종 있는데, 대부분 종래의 벡터 양자화 방식을 사용한다. 만약 해당 모델들에 본 발명을 적용한다면 딥러닝 모델이 생성하는 음성, 이미지 영상 등의 품질을 향상할 수 있을 것으로 기대된다.
한편, MarketsandMarkets 사에 따르면, 웨어러블 기기들의 수요 증가와 데이터 트래픽 증가 등의 영향으로 오디오 코덱 시장은 2020년 59억 달러에서 2025년 78억 달러로 연간 5.5% 성장을 할 것으로 예상된다(MarketsandMarkets, “Audio Codec Market by Component Type (Hardware and Software), Application (Desktop and Laptop, Mobile Phone and Tablet, Headphones, Headset and Wearable Devices), and Region - Forecast to 2025”, December 2020). 나아가, 네트워크 연결의 용이성, 대용량 데이터 저장을 위한 클라우드 서비스 이용, 고효율 비디오 코딩의 발달 등으로 인해 전세계 비디오 인코더 시장은 2020년 19억 달러에서 2025년 22억 달러로 성장할 것으로 예상된다(MarketsandMarkets, “ideo Encoder Market with COVID-19 Impact by Number of Channel (Single, Multichannel), Mounting Type (Standalone, Rack-mounted), Application (Broadcast, Surveillance (Commercial, Residential, Institutional)), and Geography - Global Forecast to 2025”, October 2020). 특히 팬데믹으로 인한 온라인 회의, 음성 채팅 등의 보급으로 인해 고품질 멀티미디어 코덱의 중요성이 대두하고 있으며 그 시장 규모 역시 커지고 있다. 본 발명은 여러 코덱에서 흔히 사용되는 기법인 레지듀얼 벡터 양자화를 개선하는 기술이므로, 상술한 코덱 시장에서 훌륭한 솔루션을 제공할 것으로 기대된다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (8)

  1. 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 레지듀얼 벡터 양자화 방법으로서,
    (1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;
    (2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;
    (3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및
    (4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
  2. 제1항에 있어서, 상기 비터비 빔 서치는,
    각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
  3. 제1항에 있어서,
    멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여주는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
  4. 제1항 내지 제3항 중 어느 하나의 항에 따른 방법이 프로그램 명령어의 형태로 구현된 컴퓨터 판독 가능 매체.
  5. 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치(100)로서,
    양자화 대상이 되는 상기 입력 벡터를 입력으로 받는 입력부(110);
    복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부(120); 및
    상기 입력 벡터를 상기 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치(Viterbi Beam Search)를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부(130)를 포함하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
  6. 제5항에 있어서, 상기 비터비 빔 서치는,
    각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
  7. 제6항에 있어서, 상기 양자화부(130)는,
    (1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;
    (2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;
    (3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및
    (4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 수행하여 양자화 결과를 출력하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
  8. 제5항에 있어서,
    멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여주는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
PCT/KR2023/010532 2022-09-05 2023-07-20 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체 WO2024053854A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0111938 2022-09-05
KR1020220111938A KR20240033374A (ko) 2022-09-05 2022-09-05 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Publications (1)

Publication Number Publication Date
WO2024053854A1 true WO2024053854A1 (ko) 2024-03-14

Family

ID=90191559

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/010532 WO2024053854A1 (ko) 2022-09-05 2023-07-20 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Country Status (2)

Country Link
KR (1) KR20240033374A (ko)
WO (1) WO2024053854A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832033B2 (ja) * 1988-03-12 1996-03-27 株式会社グラフィックス・コミュニケーション・テクノロジーズ 学習型多段ベクトル量子化方法と装置
KR970050118A (ko) * 1995-12-27 1997-07-29 구자홍 음성인식의 자동모델 결정방법
KR20070051910A (ko) * 2004-09-17 2007-05-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치,스케일러블 부호화 방법, 스케일러블 복호화 방법, 통신단말 장치 및 기지국 장치
WO2012035781A1 (ja) * 2010-09-17 2012-03-22 パナソニック株式会社 量子化装置及び量子化方法
KR20120043160A (ko) * 2007-11-02 2012-05-03 후아웨이 테크놀러지 컴퍼니 리미티드 다단계 양자화 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832033B2 (ja) * 1988-03-12 1996-03-27 株式会社グラフィックス・コミュニケーション・テクノロジーズ 学習型多段ベクトル量子化方法と装置
KR970050118A (ko) * 1995-12-27 1997-07-29 구자홍 음성인식의 자동모델 결정방법
KR20070051910A (ko) * 2004-09-17 2007-05-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치,스케일러블 부호화 방법, 스케일러블 복호화 방법, 통신단말 장치 및 기지국 장치
KR20120043160A (ko) * 2007-11-02 2012-05-03 후아웨이 테크놀러지 컴퍼니 리미티드 다단계 양자화 방법 및 장치
WO2012035781A1 (ja) * 2010-09-17 2012-03-22 パナソニック株式会社 量子化装置及び量子化方法

Also Published As

Publication number Publication date
KR20240033374A (ko) 2024-03-12

Similar Documents

Publication Publication Date Title
WO2015111850A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2019194460A1 (ko) 컨벌루션 뉴럴 네트워크를 이용한 영상 코딩 방법 및 그 장치
WO2020153736A1 (en) Method and device for speech recognition
WO2011034385A2 (en) Method and apparatus for encoding and decoding mode information
WO2020191934A1 (zh) 终端喇叭的控制方法、设备及计算机可读存储介质
EP3850622A1 (en) Method and device for speech recognition
EP4248441A1 (en) Speech recognition method, apparatus, electronic device and computer readable storage medium
WO2024053854A1 (ko) 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체
WO2023177108A1 (en) Method and system for learning to share weights across transformer backbones in vision and language tasks
WO2011053054A2 (ko) 움직임 벡터 해상도 제한을 이용한 움직임 벡터 부호화/복호화 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
WO2019098589A1 (ko) 자동 음성인식 장치 및 방법
WO2016056709A1 (ko) 이미지 재부호화 방법 및 그 장치
WO2022030805A1 (ko) 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법
WO2021015403A1 (en) Electronic apparatus and controlling method thereof
WO2020231020A1 (ko) 연판정 기반으로 선형 부호를 고속 복호화하는 방법 및 장치
WO2021096252A1 (en) Image providing apparatus and image providing method thereof, and display apparatus and display method thereof
WO2020080615A1 (en) Terminal
WO2020179966A1 (ko) 연판정 기반으로 선형 부호를 고속 복호화하는 방법 및 장치
WO2017039421A1 (ko) 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
WO2024025386A1 (ko) 표준 정규분포 기반 양자화 기법을 이용한 딥러닝 네트워크 부호화/복호화 방법 및 장치
WO2022119304A1 (ko) 적응적 데드존 양자화를 이용하는 포인트 클라우드 코딩 장치 및 방법
WO2023101343A1 (en) Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
WO2011090359A2 (ko) 데이터 압축/해제장치 및 방법
WO2017065534A1 (ko) 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
WO2023075568A1 (ko) 부호화 구조의 채널간 참조에 기반한 피쳐 부호화/복호화 방법, 장치, 비트스트림을 저장한 기록 매체 및 비트스트림 전송 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23863335

Country of ref document: EP

Kind code of ref document: A1