KR20190127090A

KR20190127090A - 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치

Info

Publication number: KR20190127090A
Application number: KR1020180051225A
Authority: KR
Inventors: 김종호; 고현석; 정세윤; 강정원; 이대열; 김휘용; 김문철; 기세환
Original assignee: 한국전자통신연구원; 한국과학기술원
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2019-11-13

Abstract

본 발명은 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치에 관한 것이다. 본 발명에 따른 영상 부호화 방법은, 기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계, 상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되, 상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법중 어느 하나를 활용하는 것을 특징으로 한다.

Description

주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치 {Method and Apparatus for Just Noticeable Quantization Distortion based Perceptual Video Coding using Machine Learning}

본 발명은 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치에 관한 것이다

종래 최소 인지 왜곡 기반 영상 압축 방법은 크게 두 가지로 분류가 된다.

첫째, 영상 압축 과정 내의 양자화 과정에서 발생되는 레지듀얼(residual) 성분에 대해 최소 인지 모델을 기반으로 인지 되지 않는다고 여겨지는 성분을 제거하는 방법이다. 상기 방법의 문제점은 압축 양자화 파라미터가 큰 경우 레지듀얼 성분이 이미 큰 양자화 파라미터에 의해서 제거되어 더 이상 제거할 수 있는 성분이 존재하지 않기 때문에 기존의 압축 방식에 비해 성능을 높일 수가 없게 된다. 또한 압축 내부에 적용하기 위해서는 모든 압축 블록 크기와 주파수 변환 방법에 맞는 최소 인지 왜곡이 필요하다.

둘째, 압축 과정의 전처리 방법으로 원본 입력 영상에 대해 최소 인지 왜곡 모델을 기반으로 인지 되지 않는 영상 내 정보를 제거하는 방법이다. 상기 방법은 원본 영상에 대해서 제거하기 때문에 앞서 말한 방법의 문제점이었던 큰 양자화 파라미터에서 성능이 낮다는 것을 해결할 수 있었지만, 영상 압축에서 발생되는 왜곡에 대한 고려 없이 원본 영상에 대해서 전처리 방법을 적용했기 때문에 원본 영상에서는 고려할 수 없었던 영상 압축 왜곡으로 인해 화질이 저하되는 문제가 발생될 수 도 있다

따라서, 본 발명의 목적은, 전술한 종래 기술의 문제점을 해결하기 위해, 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 영상 압축에서 발생되는 왜곡에 대한 주관적 인지 특성을 기계 학습을 통해 학습함으로써 주관적으로 인지되지 않는 영상 내 정보를 효과적으로 제거하여 영상의 동일 인지 화질 대비 높은 압축률을 얻을 수 있는 부호화 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 기계학습 방법을 적용하여 양자화 파라미터 값과 입력 영상의 특성에 따라 전처리 강도를 조절 할 수 있도록 학습 방법으로, 선형 회귀 방법과 컨볼루션 신경망 방법을 제공하는 데 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한, 본 발명에 따른 영상 부호화 방법은, 기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계, 상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되, 상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법중 어느 하나를 활용하는 것을 특징으로 한다.

본 발명의 실시예에 따르면 다음과 같은 효과가 있다.

첫째, 영상 압축에 적합한 왜곡을 기반으로 만든 최소 인지 왜곡 모델을 사용해 기존 최소 인지 왜곡 모델보다 더 정확한 인지 경계를 추정하는 것이 가능하게 된다.

둘째, 상기 최소 인지 왜곡 모델을 영상 압축 방법의 전처리 방법에 적용해서 주관적 화질 저하 없이 영상 용량의 감소 효과를 가져오게 되어, 부호화 효율을 획기적으로 개선하는 것이 가능하게 된다.

셋째, 주관적 특성을 반영한 압축 영역에서도 기계 학습으로 높은 부호화 성능을 제공하는 것이 가능하게 된다.

도 1은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치를 도시한 블록도 이다.
도 2는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법을 도시한 흐름도 이다.
도 3은 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 방법을 도시한 것이다.
도 4는 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 결과를 도시한 것이다.
도 5는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 조절 파라미터를 결정 과정을 설명하기 위한 블록도 이다.
도 6은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법과 컨볼루션 신경망을 이용하여 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.
도 7은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법을 이용한 영상 전처리 과정을 설명하기 위한 블록도 이다.
도 8 및 도 9는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 컨볼루션 신경망 방법을 적용한 구조를 도시한 개념도 이다.
도 10은 본 발명의 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치를 도시한 블록도 이다.
도 11은 본 발명에 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법을 도시한 흐름도 이다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 발명에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 발명의 범위에 포함된다.

본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예들에 대해서 설명한다.

도 1 및 도 2는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치 및 방법을 도시한 것이다. 또한, 상기 영상 부호화 장치 및 방법에 대응한 영상 복호화 장치 및 방법을 도시한 것이다. 도 1 및 도2를 참조하면, 본 발명의 영상 부호화 장치는 조절 파라미터 결정부(101), 영상 전처리부(102) 및 영상 부호화부(103)를 포함한다. 영상 부호화 장치를 통해 부호화된 비트스트림이 생성되고 이를 수신한 영상 복호화 장치내의 영상 복호화부(110)는 정해진 포맷에 따라 비트스트림을 복호화 하게 된다.

상기 조절 파라미터 결정부(101)는 영상을 입력받아 영상 조절 파라미터를 기계 학습 방식으로 학습한다(S110). 상기 기계 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법이 있으며, 이에 대해서는 도3 이하에서 상세히 후술하고자 한다.

상기 영상 전처리부(102)는 상기 조절 파라미터 결정부(101)에 의해 결정된 조절 파라미터를 활용하여, 주관적 화질에 영향을 최소화하는 범위내에서 영상의 일부를 제거하는 영상 전처리 과정을 수행한다(S120).

상기 영상 부호화부(103)는 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하고, 최종적으로 부호화된 비트스트림을 생성하게 된다(S130)

상기 영상 복호화부(110)는 상기 부호화된 비트스트림을 입력 받아, 기 결정된 복호화 포맷에 따라 입력 영상을 복호화하여 복원된 영상을 출력하게 된다(S140)

관련하여, 본 발명은 영상 압축에서 발생되는 왜곡에 대한 주관적 인지 특성을 기계 학습을 통해 학습함으로써 주관적으로 인지되지 않는 영상 내 정보를 효과적으로 제거하여 영상의 동일 인지 화질 대비 높은 압축률을 얻을 수 있는 방법 및 장치를 제공하고 자 한다. 즉, 기존의 영상 압축에 적용 되었던 최소 인지 왜곡 모델과는 상이한 방식으로, 보다 영상 압축에 적합한 왜곡을 기반으로 얻어진 최소 인지 양자화 왜곡 모델을 사용하고자 한다. 또한 본 발명은 최소 인지 왜곡 모델 기반 영상 압축의 전처리 방법에 기계 학습을 최초로 적용한 것이다

또한, 본 발명은 기존의 영상 압축의 전처리 방법의 문제점이었던 영상 압축에서 발생되는 왜곡 정도와 상관없이 전처리 과정을 수행하는 점을 해결하여, 영상 압축의 양자화 정도를 미리 예측해서 전처리 강도를 조절할 수 있도록 학습된 모델을 적용한다.

또한, 본 발명은 기계학습 방법을 적용하여 양자화 파라미터 값과 입력 영상의 특성에 따라 전처리 강도를 조절 할 수 있도록 학습 하되, 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법을 적용한 두 가지 방법을 제시하고 자 한다.

상기 선형 회귀 방법을 적용한 경우, 주관적 왜곡 인지 실험을 통해 얻은 최소 인지 왜곡 모델 값을 선형회귀 방법으로 추정하는 것을 의미한다. 이 때 추가적인 양자화 왜곡 크기에 따라 조절하는 파라미터 값을 적용하여 영상 패치에서 추출된 특징과 양자화 파라미터 값을 이용하게 된다.

상기 컨볼루션 신경망 방법을 적용한 경우, 실험으로 얻은 최소 인지 왜곡 모델 값과 전처리 조절 파라미터를 따로 구하는 것이 아니라 한 번에 원본 영상이 입력되어서 출력으로 압축 양자화 파라미터에 맞게 전처리 된 영상이 나오도록 학습하게 된다. 특히, 본 발명은 기존의 화질 향상 관점의 영상 처리에서 많이 활용되던 컨볼루션 신경망 방법을, 최초로 인지 화질 관점에서 화질 저하 없이 정보를 제거하는 목적으로 사용하여 높은 성능을 낼 수 있다는 것을 증명하였다.

이하 도 3 내지 도 5를 참조하여, 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 조절 파라미터 결정 과정을 설명하면 다음과 같다.

우선, 도 3 및 도 4는 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 방법 및 결과를 도시한 것이다. 또한, 도 5는 본 발명에 따른, 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.

관련하여, 도 3은 설명의 편의를 위해 영상을 1차원 주파수 성분으로 변환 했다고 가정하고 도시한 것이다. 도 3을 참조하면, 1차원 주파수 영역에서 주파수 성분의 크기를 그래프로 나타내면 도 3(a)에 도시한 바와 같이, 저 주파수영역에 큰 주파수 성분 값을 가지게 되고, 고 주파수 영역에서는 작은 값을 가지는 것이 자연적인 영상의 특성이다.

이 때, 원본 영상의 에너지가 감소되는 왜곡을 조금씩 증가 시켜가면서 실험자가 왜곡이 인지되는 지점을 찾는 방식으로 실험을 진행한다. 도 3(b)는 모든 주파수 성분의 크기를 모두 동일한 크기로 감소시켜가면서 왜곡을 발생시킨 경우를 도시한 것이다. 실험을 위해, 도 3에서는 1차원 그래프로 나타냈지만 실제로는 8x8 블록 DCT변환을 통해 얻은 각각의 8x8 블록에 대해서 동일한 크기로 감소 시키면서 왜곡을 발생 시키는 것이 바람직하다.

또한, 실험 영상 패치 크기는 32x32 크기를 사용하며, 이는 실험에 사용한 시청 거리에서 실험에 사용한 디스플레이 수단(예, FHD TV)을 시청 시, 시야 각 2° 이내로 들어오는 초점 영역으로 실험을 하는 것이 바람직하기 때문이다. 단, 이는 하나의 예에 불과하며, 다양한 실험 조건 및 방식을 선택하는 것이 가능하다.

또한, 실험에서 영상의 복잡도 특성을 기준으로 인지 왜곡 모델을 만들기 위해서 사용한 32x32 패치 영상은 자연 영상 중에서 균일한 복잡도를 가지는 영상을 선택해서 실험할 수 있다.

본 발명에서는 영상 패치 복잡도 특성에 따라 주파수 성분의 최대 감소 값을 추정하는 모델을 생성한다. 이 때, 사용한 방법은 SCI[-]라는 주파수 특성에 따라 인지적 복잡도를 측정해주는 방법을 사용한다.

즉, 균일 복잡도를 가진 다양한 92장의 32x32패치 영상에 대해서, 다수의 실험 참여자(예, 10명)의 주관적 화질 평가 결과의 각각 영상의 중간 값 결과를 가지고 선형 회귀 방법으로 도 4와 같은 실험 결과와 수식(1)의 모델을 얻을 수 있다. 여기서, 해당 모델이 의미하는 것은, SCI 값이 t_SCI 인 8x8 DCT 블록에서는 인지적으로 왜곡을 인지 못하는 주파수 성분의 감소 경계 값이 K_ERJND임을 의미한다.

(수식1)

전술한 바와 같이, 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 (Energy Reduced based JND: ERJND) 을 사용해서 영상 압축의 입력 영상의 인지되지 않지만 영상의 정보가 제거된 영상을 만들 수 있다. 구체적으로, 수식(2)와 같이 DCT 블록 내 (i,j)의 주파수 성분 값을 c(i, j)라고 할 때, 인지 왜곡 모델을 사용해서 주파수 성분의 크기를 인지가 되지 않는 정도로 줄일 수 있게 된다.

(수식2)

상기 수식(2)에 따라, 영상의 정보가 제거 되었기 때문에 동일 압축 방법을 사용하더라도 원본 영상을 입력한 것에 비해 더 적은 비트로 저장할 수 있고, 이는 부호화 효율을 향상을 가져 올 수 있다. 단, 압축 전처리로 영상의 정보를 제거하기 때문에 영상 압축 과정을 거친 뒤에도 원본을 입력한 압축 영상에 비해 화질 저하가 없음을 확신하기는 어렵다.

따라서 본 발명에서는 위의 문제를 해결하기 위해, 영상 압축 과정 내에서 발생되는 왜곡 정도를 추정해서 원본 영상을 전처리 시 제거할 정보 양을 조절할 수 있도록 하는 것에 특징이 있다.

즉, 아래 수식(3)으로부터, 전술한 ERJND모델에서 추정한 전처리 강도를 α 라는 실수 변수를 통해 조절할 수 있도록 한다. 이 때 α 는 0과 1 사이의 실수 값 이므로 1일 때에는 ERJND와 동일한 크기만큼 전처리 함을 의미하고, 0일 때에는 전처리를 하지 않음을 의미하게 된다. 또한, α값을 8x8블록 마다 영상의 특성과 양자화 파라미터에 따라 다르게 결정 하는 것이 가능하다.

(수식3)

즉, 상기 조절 파라미터 α 값은 8x8 블록 마다 한 개의 실수 값으로 결정될 수 있다. 상기 α 값 결정시는, 블록의 복잡도 특성과 압축의 양자화 파라미터 값을 특징으로 해서 모델링 한다. 관련하여, 다음 두 가지의 가정을 고려할 수 있다. 첫째, ERJND 모델을 통해서 전처리 한 영상은 원본 영상과 주관적으로 차이를 느끼지 못한다는 가정이다. 이는 주관적 실험 평가를 통해서 검증 가능하다. 둘째, 원본 영상과 ERJND 모델을 통해 얻은 전처리 영상 사이의 왜곡 정도 값 D_B1값보다 더 큰 왜곡 차이를 가진 두 영상은 주관적으로 인지되는 왜곡을 가진 것으로 가정한다. 이 때 사용되는 왜곡 값 D_B는 수식(4)와 같이 주파수 성분에서의 JND 기반 L1 놈(norm) 형태로 볼 수 있다. 따라서, 상기 두 가지 가정을 이용해서 조절 파라미터 α 값을 결정하는 것이 가능하게 된다.

(수식4)

도 5는 상기 과정을 도식적으로 도시한 것이다. 도 5를 참조하면, 우선, 상기 ERJND 모델에 따라, 원본 영상(100)을 ERJND 영상(201)으로 변환하고, 왜곡 인지 기준 값인 D_B1값을 획득하게 된다(202). 즉, 상기 8x8 블록 마다 인지 왜곡 기준 값인 D_B1값을 획득하게 된다.

또한, 상기 조절 파라미터 α값 및 수식(3)을 적용하여, 원본 영상(100)을 JNQD 영상(211) 으로 전처리 변환한다. 상기 전처리된 영상을 기 결정된 압축 방식(예, HEVC)에 따라 압축한 뒤, 복원한 영상(212)을 원본 영상(100)과 비교해서 왜곡 기준값인 D_B2를 획득하게 된다(213). 이후, 상기 D_B2를 D_B1와의 비 값 (Compression Distortion Visibility Metric: CDVM)을 얻을 수 있다(213). 관련하여, 상기 두번째 가정을 통해 이 두 왜곡 값 D_B1 및 D_B2 의 비가 1보다 작으면서 최대인 α값의 경우가 최적의 α 값으로 결정할 수 있게 된다.

여기서, 상기 복원한 영상(212)을 획득하기 위해서는, 0부터 1까지의 다양한 α값에 대해서 전처리 한 영상을 압축 한 뒤 복원하는 과정을 반복하게 된다. 즉, 상기 방법을 그대로 적용하기 위해서는 새로운 영상에 대해 다양한 α 값으로 압축 과정을 진행 후, 왜곡 정도를 비교하는 과정을 반복해야 하기 때문에 부호화 성능 측면에서 비효율적인 면이 존재하게 된다.

따라서, 본 발명은 상기 방법을 개선하여 입력 영상의 특성과 압축 양자화 파라미터 값에 따라 조절 파라미터를 추정할 수 있는 모델을 제시하고 자 한다. 실험적으로 상기 CDVM이 α값과 선형적인 관계를 가지고 있음을 확인하였고, 그 선형 기울기와 y절편이 블록 영상의 복잡도와 양자화 파라미터 값에 따라 달라짐을 확인할 수 있었다. 결국, 블록 영상에서 복잡도 특성을 추출하고 양자화 파라미터에 따라 CDVM과 α값의 선형 관계를 선형 회귀를 통해 수식(5)와 같이 추정할 수 있게 된다. 또한, 상기 선형 관계가 추정된다면 상기 가정을 통해 최적의 α값은 CDVM 값이 1일 때인 수식 (6)과 같이 결정할 수 있게 된다.

(수식5)

(수식6)

도 6은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법과 이용하여 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.

도 6을 참조하면, 전술한 도 5의 과정(200)을 통해서 다양한 영상에 대해서 CDVM 그래프를 얻은 뒤, 구해진 그래프와 블록 영상 간의 관계를 추정해서 도 6의 선형 회귀 방법에 의한 LR-JNQD 학습(300) 및 컨볼루션 신경망 방법에 의한 CNN-JNQD 학습(400)을 수행하게 된다. 본 발명은 예를 들어, 상기 두 가지 학습 방법을 모두 도시하였으나, 실제 제품 적용 실시에서는 상기 두 가지 학습 방법 중 한 가지 방법만을 활용할 수 있음은 자명하다.

도 7은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법을 이용한 영상 전처리 과정을 설명하기 위한 블록도 이다.

전술한 LR-JNQD 학습(300) 방법을 통해 얻은 학습 가중치(1022) 및 새로운 입력 원본 영상(100)에서 추출한 복잡도 특성(1021)과 압축에 사용될 양자화 파라미터(QP)를 이용하여, CDVM 선형 그래프 변수를 추정 후(1023), 해당 블록 영상의 최적의 값을 결정해서(1024) ERJND 모델에 적용하여 압축 왜곡 정도에 적응적인 전처리 영상(1025)을 생성하게 된다.

도 8 및 도 9는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 컨볼루션 신경망 방법을 적용한 구조를 도시한 개념도 이다.

전술한 선형 회귀 방법(도 6)에서는, 블록 영상에서 복잡도 특성을 추출해서 α를 결정하고 기존의 ERJND 모델을 곱해서 전처리 영상을 생성하게 된다. 반면 컨볼루션 신경망 방법을 적용할 때에는 입력과 출력을 원본 영상과 영상 압축에 조절된 전처리 영상이 되도록 한 뒤 학습을 수행하였다. 도 6에서 도시한 바와 같이, 반복적인 압축 과정을 통해서 얻은 다양한 블록 별 최적의 α 값을 가지고 만든 JNQD 영상(211)을 정답 라벨로 하고 학습을 한다면 새로운 원본 영상이 입력될 때 원하는 양자화 파라미터에 따른 전처리 JNQD 영상이 출력 될 수 있게 된다. 관련하여, 상기 컨볼루션 신경망 방법에 사용하는 α값은 선형 회귀 방법으로 추정한 α값이 아닌 반복 실험으로 얻는 최적 α 값을 의미한다.

도 8을 참조하면, 컨볼루션 신경망은 특정 양자화 파라미터 구간 별로 학습을 한 뒤(도 6, 400 CNN-JNQD), 실제 영상 부호화시는, 양자화 파라미터(1026)에 따라 압축 정도에 적응적인 JNQD 영상(1028)을 선택적으로 스위칭(1027) 하여 전처리 영상(1029)을 획득하게 된다.

관련하여, 컨볼루션 신경망은 방법을 실제 적용 시, 처리 시간을 고려하여, 컨볼루션 신경망 구조를 단순한 구조를 사용하는 것이 더욱 효율적이다.

도 9를 참조하면, 본 발명의 실시예는, 최소 인지 왜곡 관련하여 최초로 컨볼루션 신경망 방법을 사용하는 것이기 때문에 가장 일반적인 구조를 적용하였다. 관련하여, 실험에 활용되는 입력 영상의 크기는 14x14로 하고 3번의 컨볼루션에서 패딩을 하지 않고 진행해서 출력 크기는 8x8이 되도록 학습하였고 손실 함수는 L2 놈을 사용하였다. 구체적으로, 두 개의 히든(hidden) 층(501, 502)을 가진 구조에, 3x3 작은 필터 사이즈를 사용해서 학습을 하였는데도 불구하고, 종래 방법 및 전술한 선형 회귀 방법에 비해서도 더 높은 압축 효율을 보여줌을 확인 할 수 있었다.

도 10 및 도 11는 본 발명의 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치 및 방법을 도시한 것이다. 또한, 상기 영상 부호화 장치 및 방법에 대응한 영상 복호화 장치 및 방법을 도시한 것이다. 도 10 및 도 11을 참조하면, 본 발명의 또 다른 실시예에 따른 영상 부호화 장치는 조절 파라미터 결정부(101), 영상 전처리부(102) 및 영상 부호화부(103)를 포함한다. 상기 영상 부호화 장치를 통해 조절 파라미터(104)를 포함하여 부호화된 비트스트림이 생성되고 이를 수신한 영상 복호화 장치내의 영상 복호화부(110)는 정해진 포맷에 따라 상기 조절 파라미터(104) 값을 비트스트림으로부터 파싱(parsing) 한 후, 영상 비트스트림 복호화에 활용 한다.

즉, 도 10 및 도 11에 도시된 본 발명의 또 다른 실시예는, 부호화부(103)에서 전술한 조절 파라미터(104) 값을 부호화하여 복호화부(110)에 전달하고, 복호화부(110)는 정해진 규칙에 따라 복원된 영상의 디코딩시 또는 후처리 과정에서 상기 조절 파라미터(104) 값을 활용하는 것을 가능하게 된다.

구체적으로, 상기 조절 파라미터 결정부(101)는 영상을 입력 받아 영상 조절 파라미터를 학습한다(S210). 상기 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법이 있으며, 이에 대해서는 전술한 바와 같다.

상기 영상 전처리부(102)는 상기 조절 파라미터 결정부(101)에 의해 결정된 조절 파라미터를 활용하여, 주관적 화질에 영향을 최소화하는 범위내에서 영상의 일부를 제거하는 영상 전처리 과정을 수행한다(S220) 이때 상기 생성된 조절 파라미터 값을 영상 부호화부(1030에 전달하여, 비트스트림내에 포함되도록 한다.

상기 영상 부호화부(103)는 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하되, 상기 조절 파라미터 값을 포함한 비트스트림을 생성하게 된다(S230)

상기 영상 복호화부(110)는 전달된 상기 부호화된 비트스트림으로부터 상기 조절 파라미터 값을 파싱한 후(S240), 상기 파싱된 조절 파라미터 값을 영상 복호화 과정에 활용하게 된다(S250).

상기 영상 부호화 장치 및 영상 복호화 장치를 구성하는 각 블록은 설명의 편의를 위해 개별적인 블록으로 도시하였으나, 소프트웨어가 프로그램된 하나의 매체에서 구현하는 것도 가능하다. 상기 프로그램된 매체는, ROM 메모리를 포함할 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

101 : 조절 파라미터 결정부
102 : 영상 전처리부
103 : 영상 부호화부
110 : 영상 복호화부

Claims

기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계,
상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및
상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되,
상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법 중 어느 하나를 활용하는, 영상 부호화 방법