WO2024053854A1

WO2024053854A1 - 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Info

Publication number: WO2024053854A1
Application number: PCT/KR2023/010532
Authority: WO
Inventors: 김남수; 안성환
Original assignee: 서울대학교산학협력단
Priority date: 2022-09-05
Filing date: 2023-07-20
Publication date: 2024-03-14
Also published as: KR20240033374A

Abstract

본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있다.

Description

비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

본 발명은 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 관한 것으로서, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 관한 것이다.

코덱은 신호를 디지털 신호로 변환해주고 다시 원본 신호로 복원해 주는 역할을 하며, 신호의 저장과 송/수신에 활용된다. 멀티미디어들은 아날로그 신호들이다. 이것을 디지털로 부호화하고, 다시 원본 신호로 복원하는 코덱을 통해 고용량의 멀티미디어 크기를 획기적으로 줄일 수 있게 되었다. 코덱은 파일 저장과 스트리밍을 수월하게 했으며, 역으로 더욱 고화질의 영상을 즐길 수 있게 한다.

도 1은 코덱에서 사용되는 벡터 양자화를 설명하기 위해 도시한 도면이다. 도 1에 도시된 바와 같이, 코덱은 입력 신호를 압축하는 인코더와, 압축된 신호를 본래의 신호로 복원하는 디코더로 구성될 수 있다. 한정된 비트(bit)로 신호를 표현하기 위해 인코더의 마지막에는 0과 1의 비트스트림(bitstream)으로 양자화(quantization)하는 작업이 들어간다. 이 양자화 전/후 신호의 차이를 양자화 오차(quantization error)라고 하며, 양자화 오차를 줄이기 위해 다양한 양자화 기법들이 사용된다.

벡터 양자화는 샘플링한 영상의 타일을 룩업 테이블인 코드북에 저장된 많은 영상 패턴들과 비교하여 유사한 패턴의 부호 번호(벡터 인덱스)로 표현하는 손실 영상 압축 기법을 말한다. 벡터의 차수가 클수록 양자화 오차가 줄어드나 부호화 복잡도는 기하급수적으로 증가하며, 압축률을 높일수록 구획 효과, 에지 훼손 등의 화질 열화가 생긴다.

보다 구체적으로, 벡터 양자화(Vector Quantization)란, 대표적인 벡터(코드 벡터)를 복수 개 가지는 코드북(code book) 중에서, 양자화 대상 벡터에 가장 가까운 코드 벡터를 선택하고, 선택된 코드 벡터에 부여되어 있는 인덱스(부호)를 양자화 결과로 출력하는 방법이다. 벡터 양자화에서는, 사용할 수 있는 정보량에 따라 코드북의 사이즈가 결정된다. 예를 들면, 8비트의 정보량으로 벡터 양자화를 행할 경우, 코드북은 256(=2⁸) 종류의 코드 벡터를 이용하여 구성할 수 있다.

벡터 양자화에 있어서 정보량, 계산량을 저감하거나 양자화 오차를 줄이기 위해 여러 가지 기술이 이용되고 있다. 그중에서 레지듀얼 벡터 양자화 (Residual Vector Quantization)는 양자화 오차를 줄이는 방법이다.

한편, 본 발명과 관련된 선행기술로 등록특허 제10-1390051호(발명의 명칭: 벡터 양자화 장치, 벡터 역양자화 장치, 및 이러한 방법, 등록일자: 2014년 04월 22일) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 멀티미디어 코덱에서 인코딩 알고리즘만의 수정을 통해 쉽게 적용할 수 있어, 코덱의 성능을 쉽게 개선할 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 다른 목적으로 한다.

그뿐만 아니라, 본 발명은, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 양자화 오차를 줄일 수 있는 코덱의 코드북 구성에 활용하여 양자화 오차를 더욱 줄 수 있는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체를 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은,

양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 레지듀얼 벡터 양자화 방법으로서,

(1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;

(2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;

(3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및

(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 비터비 빔 서치는,

각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾을 수 있다.

바람직하게는,

멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여줄 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법이 구현된 컴퓨터 판독 가능 매체는,

본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법이 프로그램 명령어의 형태로 구현된 것을 그 구성상의 특징으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치는,

양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치로서,

양자화 대상이 되는 상기 입력 벡터를 입력으로 받는 입력부;

복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부; 및

상기 입력 벡터를 상기 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치(Viterbi Beam Search)를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 비터비 빔 서치는,

더욱 바람직하게는, 상기 양자화부는,

(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 수행하여 양자화 결과를 출력할 수 있다.

바람직하게는,

또한, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 멀티미디어 코덱에서 인코딩 알고리즘만의 수정을 통해 쉽게 적용할 수 있어, 코덱의 성능을 쉽게 개선할 수 있다.

그뿐만 아니라, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체에 따르면, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 양자화 오차를 줄일 수 있는 코덱의 코드북 구성에 활용하여 양자화 오차를 더욱 줄 수 있다.

도 1은 코덱에서 사용되는 벡터 양자화를 설명하기 위해 도시한 도면.

도 2는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치의 구성을 도시한 도면.

도 3은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치에서, 양자화부를 도시한 도면.

도 4는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치에서 사용하는 비터비 빔 서치를 설명하기 위해 도시한 도면.

도 5는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 흐름을 도시한 도면.

도 6은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 나타낸 도면.

도 7은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 순서도로 나타낸 도면.

<부호의 설명>

100: 레지듀얼 벡터 양자화 장치

110: 입력부

120: 코드북 저장부

130: 양자화부

S100: 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개의 제1 레지듀얼 벡터를 획득하는 단계

S200: B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계

S300: 단계 S200을 제3 코드북 내지 제N 코드북에 대해 반복하는 단계

S400: B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 2는 본 발명의 일실시예에 따른 비터비 빔 서치(Viterbi Beam Search)를 이용한 레지듀얼 벡터 양자화 장치(100)의 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)는, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치(100)로서, 양자화 대상이 되는 입력 벡터를 입력으로 받는 입력부(110); 복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부(120); 및 입력 벡터를 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부(130)를 포함하는 것을 그 구성상의 특징으로 한다.

이하에서는, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)의 각 구성을 설명하기 전에, 레지듀얼 벡터 양자화에 대해 상세히 설명하도록 한다.

먼저, 벡터 양자화는 미리 정해놓은 벡터들의 집합인 코드북(codebook)을 활용하며, 입력 신호를 코드북 내의 코드 벡터들로 양자화한다. 보다 구체적으로, 코드북 X={x₁, x₂, …, x_M}은 벡터 M개로 이루어져 있으며, 각 벡터 x_k는 D 차원이다. 이때 D 차원 입력 벡터 y가 주어지면 y와의 거리

가 가장 작은 벡터 x_k로 y를 근사할 수 있으며, 이는 D 차원의 입력 벡터 y를 1부터 M까지의 자연수 중 하나인 k로 양자화하여 인코딩한 것이다. 디코더는 y 대신 k를 입력으로 받아서 y의 근삿값인 x_k로 디코딩하게 된다.

벡터 양자화에서 양자화 오차를 줄이려면 코드북 내 벡터의 개수 M이 증가해야 하며, 이는 연산량 및 코드북 크기의 증가로 이어진다. 이때 M은 지수적으로 증가하기 때문에 M을 늘리는 것에는 한계가 있다. 따라서 레지듀얼 벡터 양자화에서는 M을 늘리는 대신 벡터 양자화를 여러 단계로 늘려서 수행한다. 레지듀얼 벡터 양자화에서 양자화 오차를 줄이려면 양자화 단계 수를 선형적으로 늘리면 되기 때문에 벡터 양자화에 비해 연산량 및 메모리 측면에서 효율적이다.

N 단계로 이루어진 기존의 레지듀얼 벡터 양자화 방법은 다음과 같다.

첫 번째 단계에서는 기존 벡터 양자화와 똑같은 작업을 하고, 다음 단계부터는 이전 단계에서의 양자화 오차를 입력으로 받아서 양자화를 진행한다. 보다 구체적으로, n번째 단계의 코드북을

, 입력 벡터 신호를 y라 하자. 첫 번째 단계에서는 코드북 X¹안의 코드 벡터 중에서 입력 y와의 거리

가 가장 작은 벡터

으로 y를 양자화한다. 즉

로 근사한 것이다. 이때 양자화 오차인

을 두 번째 단계의 입력으로 삼아서, 두 번째 코드북 X² 안의 코드 벡터 중

와의 거리가 가장 작은 벡터

로 양자화 한다. 즉,

로 근사한 것이므로 y를

로 근사한 셈이다. 이후 두 번째 단계의 양자화 오차인

을 세 번째 단계의 입력으로 삼아서

으로 양자화한다. 이를 계속 반복하여 최종적으로 N 번째 단계까지 양자화를 마치면 y는

으로 근사되며, 이는 곧 입력 벡터 y를 자연수의 수열 {k₁, k₂, …, k_N}로 양자화하여 인코딩한 것이다. 디코더는 y 대신 {k₁, k₂, …, k_N}를 입력으로 받아서 y의 근삿값인

로 디코딩하게 된다.

이와 같은 기존의 레지듀얼 벡터 양자화는 양자화 오차를 최소화하는 벡터를 각 단계에서 1개씩만 구한다. 하지만, n번째 단계에서 오차를 최소화하는 벡터를 선택해야 n+1번째 단계에서도 양자화 오차가 최소화된다는 보장은 없다. n번째 단계에서 양자화 오차가 조금 큰 벡터로 양자화해야 n+1번째 단계에서 양자화 오차가 최소화되기도 한다.

본 발명은 위의 문제를 해결하기 위해 레지듀얼 벡터 양자화에서 각 단계마다 양자화 오차를 최소화하도록 양자화를 1번만 하지 않고 여러 후보를 구하는 방법을 다룬다. 이때, Viterbi beam search 알고리즘을 이용하며, 이를 통해 최종 양자화 오차가 기존의 레지듀얼 벡터 양자화 방법보다 작거나 적어도 같도록 할 수 있다.

도 3은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서, 양자화부(130)를 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)는, 양자화 대상이 되는 입력 벡터 y와 코드북 Xⁿ을 입력받아, 비터비 빔 서치 알고리즘을 사용해 양자화 결과를 출력할 수 있다. 여기서, 비터비 빔 서치는, 전술한 바와 같은 N 단계로 이루어진 종래의 레지듀얼 벡터 양자화 방법과 비터비 서치(Viterbi Search)를 레지듀얼 벡터 양자화에 적용한 방법을 절충한 방법으로, 각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾을 수 있다.

이하에서는, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)의 양자화부(130)에서 실행하는 레지듀얼 벡터 양자화 방법을 설명하기 위해, 먼저 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법에 관해 설명하도록 한다.

비터비 서치는 주어진 상황에서 최적의 경로를 탐색하는 알고리즘이다. 레지듀얼 벡터 양자화에 비터비 서치를 적용하면 아래와 같다.

첫 번째 단계의 입력은 y이며, 코드북 X¹ 내의 코드 벡터 x_k ¹ (k=1, 2, …, M) 각각에 대해 y-x_k ¹를 계산하여 총 M개의 벡터를 다음 단계로 넘겨준다. 두 번째 단계에서는 X² 내의 코드 벡터 x_k ² (k=1, 2, …, M) 각각에 대해 어떤 입력을 양자화해야 양자화 오차가 최소가 되는지를 찾은 후 해당 양자화 오차를 다음 단계로 넘겨준다. 예를 들어, x₁ ² 벡터가 M개의 입력 벡터 중 4번째(y-x₄ ¹)와의 양자화 오차가 최소라면, y-x₄ ¹-x₁ ²를 계산한다. 이런 식으로 모든 x_k ²(k=1, 2, …, M)에 대해 구하므로 총 M개의 벡터를 다음 단계로 넘겨주는 셈이다.

이를 계속 반복하면, n번째 단계의 입력은 n-1번째 단계의 출력이며, n번째 단계의 출력은 해당 단계의 코드북 Xⁿ 내의 코드 벡터 x₁ ⁿ, x₂ ⁿ, …, x_M ⁿ 각각에 대해 해당 벡터로 양자화했을 때의 최소 양자화 오차이다. 이를 마지막 단계까지 반복하면 M개의 최종 출력이 나오는데, 이 중 양자화 오차가 최소인 하나의 경로를 선택한다.

기존 레지듀얼 벡터 양자화와 비교하면, 기존에는 각 단계의 입력과 출력이 1개의 벡터이며 코드북 내에서 양자화 오차를 최소화하는 경로를 선택하는 반면, 비터비 서치를 이용한 레지듀얼 양자화 방법에서 각 단계의 입력과 출력은 M개의 벡터이며, 각 단계마다 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 선택한다. 따라서, 최종 양자화 오차는 항상 기존 방법 이하가 되지만, 연산량과 필요한 메모리 크기가 M배가 된다.

본 발명에서 사용하는 비터비 빔 서치는, 기존 방법과 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법을 절충한 것으로, 레지듀얼 벡터 양자화의 각 단계마다 코드북 내 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 찾는 대신, 양자화 오차가 가장 작아지는 B개의 경로만 선택해 저장할 수 있다. 여기서 1≤B≤M이다. 따라서 최종 양자화 오차는 기존 레지듀얼 벡터 양자와 방법 이하이고, 비터비 서치를 레지듀얼 벡터 양자화에 적용한 방법 이상이 되며, 연산량과 필요한 메모리 크기는 기존 방법 대비 B배가 된다.

도 4는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서 사용하는 비터비 빔 서치를 설명하기 위해 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100)에서 사용하는 비터비 빔 서치에서, B=1로 설정하면 각 단계에서 양자화 오차가 최소화되는 1개의 경로를 선택하는 것이므로 기존의 레지듀얼 벡터 양자화의 결과와 같아지고, B=M으로 설정하면 각 단계에서 모든 M개의 코드 벡터에 대해 양자화 오차를 최소화하는 경로를 찾으므로 비터비 빔 알고리즘을 적용한 결과와 같아진다.

도 5는 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은, 레지듀얼 벡터 양자화 장치(100)에서 각 단계가 수행되며, 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개의 제1 레지듀얼 벡터를 획득하는 단계(S100), B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계(S200), 단계 S200을 제3 코드북 내지 제N 코드북에 대해 반복하는 단계(S300) 및 B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계(S400)를 포함하여 구현될 수 있다.

본 발명은 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법에 관한 것으로서, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.

레지듀얼 벡터 양자화는 문제 정의를 아래와 같이 할 수 있다.

y: 양자화하고자 하는 D 차원의 입력 벡터 신호

X¹, X², …, X^N: N개의 코드북. 각 코드북 Xⁿ은 D 차원의 벡터 M개로 이루어짐(

)

목적:

가 최소가 되도록 하는 {k₁, k₂, …, k_N} 구하기 k_i∈{1, 2, …, M}

본 발명에서는 목적 달성을 위해 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치 알고리즘을 수행할 수 있다.

보다 구체적으로, 벡터 양자화를 N 단계로 나눠서 진행하는데, n번째 단계에서는 n번째 코드북 Xⁿ과 n-1 단계의 출력인 B개의 y-x¹-x²-…-x^n-1 후보 벡터를 입력으로 받으며, 비터비 빔 서치를 수행한 후

이 가장 작아지도록 하는 y-x¹-x²-…-x^n-1-xⁿ를 B개 출력할 수 있다. 이를 1부터 N 단계까지 수행하면 거리

을 최소로 하는 {k₁, k₂, …, k_N}을 얻을 수 있다.

즉, 단계 S100은 레지듀얼 벡터 양자화의 N 단계 중 n=1인 첫 번째 단계로, 입력 벡터를 입력으로 받아 제1 코드북(X¹) 내의 M개의 코드 벡터에 대하여 양자화 오차를 최소화하는 B개 즉, 양자화 오차가 작은 순서대로 B개의 제1 레지듀얼 벡터를 후보로 획득할 수 있다.

단계 S200은, 벡터 양자화의 N 단계 중 n=2인 두 번째 단계로, 단계 S100에서 획득한 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북(X²) 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득할 수 있다.

단계 S300은, 벡터 양자화의 n=3인 세 번째 단계부터 N 번째 단계까지로, 이전 단계에서 획득한 제n-1 레지듀얼 벡터를 입력으로 받아 제n 코드북(Xⁿ) 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제n 레지듀얼 벡터를 획득할 수 있다. 마지막 N 번째 단계까지 수행하면, B개의 제N 레지듀얼 벡터가 출력될 수 있다.

단계 S400에서는, B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과인 {k₁, k₂, …, k_N}를 출력할 수 있다.

이때, 본 발명의 각 단계에서 구하는 양자화 후보 개수 B는 1부터 M까지의 자연수 중 하나로 정할 수 있다. B를 늘릴수록 동일한 입력 y와 코드북 X¹, X², …, X^N에 대해 더 작은 양자화 오차를 가지도록 양자화할 확률이 높아진다.

도 6은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 나타낸 도면이고, 도 7은 본 발명의 일실시예에 따른 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법의 알고리즘을 순서도로 나타낸 도면이다. 여기서, T₁은 N×B 크기의 자연수 행렬, T₂는 N×B 크기의 자연수 행렬, k는 양자화된 결과를 저장하는 N 크기의 행렬이며, T₁, T₂, k의 각 원소는 1, 2, …, B를 저장할 수 있어야 한다.

한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화할 때, 레지듀얼 벡터 양자화의 각 단계에서 비터비 빔 서치를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 경로를 출력하고, 마지막 단계에서 출력된 B개의 경로 중 최종 양자화 오차를 최소화하는 양자화 결과를 출력함으로써, 기존 레지듀얼 벡터 양자화보다 양자화 오차를 줄일 수 있다.

또한, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 여러 코덱에서 사용되는 레지듀얼 벡터 양자화를 개선할 수 있는 기술로, 레지듀얼 벡터 양자화를 사용하는 코덱에 적용할 수 있으며, 신호를 저장 또는 통신할 때 종래의 기술 대비 양자화 오차가 작고 고품질이 되도록 처리할 수 있다. 특히, 기존 코덱을 다 바꿀 필요 없이 인코더의 양자화 알고리즘만 수정하면 되기 때문에 기존 코덱에 아주 쉽게 적용할 수 있다.

그뿐만 아니라, 본 발명에서 제안하고 있는 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100), 방법 및 컴퓨터 판독 가능 매체에 따르면, 레지듀얼 벡터 양자화에서 양자화 오차를 최소화하는 경로를 효과적으로 검출하므로, 본 발명에서 제안한 알고리즘을 적용했을 때 양자화 오차가 최소화되도록 코덱의 코드북을 다시 구성할 수도 있으며, 이 경우 양자화 오차를 더욱 줄일 수 있다.

본 발명은 음성, 이미지, 영상 등의 멀티미디어 정보를 디지털화하여 저장하는 손실압축 분야와, 정보를 송신 및 수신하는 통신 분야에 적용하여 멀티미디어의 품질을 높일 수 있다. 또한, 최근 딥러닝을 이용한 생성모델에서 벡터 양자화를 이용하는 경우가 종종 있는데, 대부분 종래의 벡터 양자화 방식을 사용한다. 만약 해당 모델들에 본 발명을 적용한다면 딥러닝 모델이 생성하는 음성, 이미지 영상 등의 품질을 향상할 수 있을 것으로 기대된다.

한편, MarketsandMarkets 사에 따르면, 웨어러블 기기들의 수요 증가와 데이터 트래픽 증가 등의 영향으로 오디오 코덱 시장은 2020년 59억 달러에서 2025년 78억 달러로 연간 5.5% 성장을 할 것으로 예상된다(MarketsandMarkets, “Audio Codec Market by Component Type (Hardware and Software), Application (Desktop and Laptop, Mobile Phone and Tablet, Headphones, Headset and Wearable Devices), and Region - Forecast to 2025”, December 2020). 나아가, 네트워크 연결의 용이성, 대용량 데이터 저장을 위한 클라우드 서비스 이용, 고효율 비디오 코딩의 발달 등으로 인해 전세계 비디오 인코더 시장은 2020년 19억 달러에서 2025년 22억 달러로 성장할 것으로 예상된다(MarketsandMarkets, “ideo Encoder Market with COVID-19 Impact by Number of Channel (Single, Multichannel), Mounting Type (Standalone, Rack-mounted), Application (Broadcast, Surveillance (Commercial, Residential, Institutional)), and Geography - Global Forecast to 2025”, October 2020). 특히 팬데믹으로 인한 온라인 회의, 음성 채팅 등의 보급으로 인해 고품질 멀티미디어 코덱의 중요성이 대두하고 있으며 그 시장 규모 역시 커지고 있다. 본 발명은 여러 코덱에서 흔히 사용되는 기법인 레지듀얼 벡터 양자화를 개선하는 기술이므로, 상술한 코덱 시장에서 훌륭한 솔루션을 제공할 것으로 기대된다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims

양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 레지듀얼 벡터 양자화 방법으로서,

(1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;

(2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;

(3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및

(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
제1항에 있어서, 상기 비터비 빔 서치는,

각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
제1항에 있어서,

멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여주는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 방법.
제1항 내지 제3항 중 어느 하나의 항에 따른 방법이 프로그램 명령어의 형태로 구현된 컴퓨터 판독 가능 매체.
양자화 대상이 되는 입력 벡터를 각각 복수의 코드 벡터로 이루어진 N개의 코드북을 사용해 양자화하는 N 단계의 레지듀얼 벡터 양자화 장치(100)로서,

양자화 대상이 되는 상기 입력 벡터를 입력으로 받는 입력부(110);

복수의 코드 벡터로 이루어진 N개의 코드북을 저장하는 코드북 저장부(120); 및

상기 입력 벡터를 상기 N개의 코드북을 사용해 양자화하되, 비터비 빔 서치(Viterbi Beam Search)를 각 단계에 적용해 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 양자화부(130)를 포함하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
제5항에 있어서, 상기 비터비 빔 서치는,

각 코드북 내의 M개의 모든 코드 벡터에 대해 양자화 오차를 최소화하는 1 이상 M 이하의 범위 내에서 미리 정해진 B개의 경로를 찾는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
제6항에 있어서, 상기 양자화부(130)는,

(1) 입력 벡터를 입력으로 받아 제1 코드북 내의 M개의 코드 벡터에 대하여, 양자화 오차를 최소화하는 미리 정해진 B개의 제1 레지듀얼 벡터를 획득하는 단계;

(2) 상기 B개의 제1 레지듀얼 벡터를 입력으로 받아 제2 코드북 내의 M개의 코드 벡터에 대하여, 비터비 빔 서치(Viterbi Beam Search)를 이용해 양자화 오차를 최소화하는 미리 정해진 B개의 제2 레지듀얼 벡터를 획득하는 단계;

(3) 상기 단계 (2)를 제3 코드북 내지 제N 코드북에 대해 반복하는 단계; 및

(4) B개의 제N 레지듀얼 벡터 중에서 최종 양자화 오차를 최소화하는 양자화 결과를 출력하는 단계를 수행하여 양자화 결과를 출력하는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).
제5항에 있어서,

멀티미디어 코덱에서 인코딩 시에 사용되어 양자화 오차를 줄여주는 것을 특징으로 하는, 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치(100).