KR20190127090A - 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치 - Google Patents

주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치 Download PDF

Info

Publication number
KR20190127090A
KR20190127090A KR1020180051225A KR20180051225A KR20190127090A KR 20190127090 A KR20190127090 A KR 20190127090A KR 1020180051225 A KR1020180051225 A KR 1020180051225A KR 20180051225 A KR20180051225 A KR 20180051225A KR 20190127090 A KR20190127090 A KR 20190127090A
Authority
KR
South Korea
Prior art keywords
image
present
distortion
adjustment parameter
value
Prior art date
Application number
KR1020180051225A
Other languages
English (en)
Inventor
김종호
고현석
정세윤
강정원
이대열
김휘용
김문철
기세환
Original Assignee
한국전자통신연구원
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 한국과학기술원 filed Critical 한국전자통신연구원
Priority to KR1020180051225A priority Critical patent/KR20190127090A/ko
Publication of KR20190127090A publication Critical patent/KR20190127090A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치에 관한 것이다. 본 발명에 따른 영상 부호화 방법은, 기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계, 상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되, 상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법중 어느 하나를 활용하는 것을 특징으로 한다.

Description

주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치 {Method and Apparatus for Just Noticeable Quantization Distortion based Perceptual Video Coding using Machine Learning}
본 발명은 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치에 관한 것이다
종래 최소 인지 왜곡 기반 영상 압축 방법은 크게 두 가지로 분류가 된다.
첫째, 영상 압축 과정 내의 양자화 과정에서 발생되는 레지듀얼(residual) 성분에 대해 최소 인지 모델을 기반으로 인지 되지 않는다고 여겨지는 성분을 제거하는 방법이다. 상기 방법의 문제점은 압축 양자화 파라미터가 큰 경우 레지듀얼 성분이 이미 큰 양자화 파라미터에 의해서 제거되어 더 이상 제거할 수 있는 성분이 존재하지 않기 때문에 기존의 압축 방식에 비해 성능을 높일 수가 없게 된다. 또한 압축 내부에 적용하기 위해서는 모든 압축 블록 크기와 주파수 변환 방법에 맞는 최소 인지 왜곡이 필요하다.
둘째, 압축 과정의 전처리 방법으로 원본 입력 영상에 대해 최소 인지 왜곡 모델을 기반으로 인지 되지 않는 영상 내 정보를 제거하는 방법이다. 상기 방법은 원본 영상에 대해서 제거하기 때문에 앞서 말한 방법의 문제점이었던 큰 양자화 파라미터에서 성능이 낮다는 것을 해결할 수 있었지만, 영상 압축에서 발생되는 왜곡에 대한 고려 없이 원본 영상에 대해서 전처리 방법을 적용했기 때문에 원본 영상에서는 고려할 수 없었던 영상 압축 왜곡으로 인해 화질이 저하되는 문제가 발생될 수 도 있다
따라서, 본 발명의 목적은, 전술한 종래 기술의 문제점을 해결하기 위해, 기계 학습을 이용한 최소 인지 양자화 왜곡 기반 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 영상 압축에서 발생되는 왜곡에 대한 주관적 인지 특성을 기계 학습을 통해 학습함으로써 주관적으로 인지되지 않는 영상 내 정보를 효과적으로 제거하여 영상의 동일 인지 화질 대비 높은 압축률을 얻을 수 있는 부호화 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 기계학습 방법을 적용하여 양자화 파라미터 값과 입력 영상의 특성에 따라 전처리 강도를 조절 할 수 있도록 학습 방법으로, 선형 회귀 방법과 컨볼루션 신경망 방법을 제공하는 데 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한, 본 발명에 따른 영상 부호화 방법은, 기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계, 상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되, 상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법중 어느 하나를 활용하는 것을 특징으로 한다.
본 발명의 실시예에 따르면 다음과 같은 효과가 있다.
첫째, 영상 압축에 적합한 왜곡을 기반으로 만든 최소 인지 왜곡 모델을 사용해 기존 최소 인지 왜곡 모델보다 더 정확한 인지 경계를 추정하는 것이 가능하게 된다.
둘째, 상기 최소 인지 왜곡 모델을 영상 압축 방법의 전처리 방법에 적용해서 주관적 화질 저하 없이 영상 용량의 감소 효과를 가져오게 되어, 부호화 효율을 획기적으로 개선하는 것이 가능하게 된다.
셋째, 주관적 특성을 반영한 압축 영역에서도 기계 학습으로 높은 부호화 성능을 제공하는 것이 가능하게 된다.
도 1은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치를 도시한 블록도 이다.
도 2는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법을 도시한 흐름도 이다.
도 3은 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 방법을 도시한 것이다.
도 4는 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 결과를 도시한 것이다.
도 5는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 조절 파라미터를 결정 과정을 설명하기 위한 블록도 이다.
도 6은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법과 컨볼루션 신경망을 이용하여 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.
도 7은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법을 이용한 영상 전처리 과정을 설명하기 위한 블록도 이다.
도 8 및 도 9는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 컨볼루션 신경망 방법을 적용한 구조를 도시한 개념도 이다.
도 10은 본 발명의 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치를 도시한 블록도 이다.
도 11은 본 발명에 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법을 도시한 흐름도 이다.
이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 발명에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 발명의 범위에 포함된다.
본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예들에 대해서 설명한다.
도 1 및 도 2는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치 및 방법을 도시한 것이다. 또한, 상기 영상 부호화 장치 및 방법에 대응한 영상 복호화 장치 및 방법을 도시한 것이다. 도 1 및 도2를 참조하면, 본 발명의 영상 부호화 장치는 조절 파라미터 결정부(101), 영상 전처리부(102) 및 영상 부호화부(103)를 포함한다. 영상 부호화 장치를 통해 부호화된 비트스트림이 생성되고 이를 수신한 영상 복호화 장치내의 영상 복호화부(110)는 정해진 포맷에 따라 비트스트림을 복호화 하게 된다.
상기 조절 파라미터 결정부(101)는 영상을 입력받아 영상 조절 파라미터를 기계 학습 방식으로 학습한다(S110). 상기 기계 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법이 있으며, 이에 대해서는 도3 이하에서 상세히 후술하고자 한다.
상기 영상 전처리부(102)는 상기 조절 파라미터 결정부(101)에 의해 결정된 조절 파라미터를 활용하여, 주관적 화질에 영향을 최소화하는 범위내에서 영상의 일부를 제거하는 영상 전처리 과정을 수행한다(S120).
상기 영상 부호화부(103)는 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하고, 최종적으로 부호화된 비트스트림을 생성하게 된다(S130)
상기 영상 복호화부(110)는 상기 부호화된 비트스트림을 입력 받아, 기 결정된 복호화 포맷에 따라 입력 영상을 복호화하여 복원된 영상을 출력하게 된다(S140)
관련하여, 본 발명은 영상 압축에서 발생되는 왜곡에 대한 주관적 인지 특성을 기계 학습을 통해 학습함으로써 주관적으로 인지되지 않는 영상 내 정보를 효과적으로 제거하여 영상의 동일 인지 화질 대비 높은 압축률을 얻을 수 있는 방법 및 장치를 제공하고 자 한다. 즉, 기존의 영상 압축에 적용 되었던 최소 인지 왜곡 모델과는 상이한 방식으로, 보다 영상 압축에 적합한 왜곡을 기반으로 얻어진 최소 인지 양자화 왜곡 모델을 사용하고자 한다. 또한 본 발명은 최소 인지 왜곡 모델 기반 영상 압축의 전처리 방법에 기계 학습을 최초로 적용한 것이다
또한, 본 발명은 기존의 영상 압축의 전처리 방법의 문제점이었던 영상 압축에서 발생되는 왜곡 정도와 상관없이 전처리 과정을 수행하는 점을 해결하여, 영상 압축의 양자화 정도를 미리 예측해서 전처리 강도를 조절할 수 있도록 학습된 모델을 적용한다.
또한, 본 발명은 기계학습 방법을 적용하여 양자화 파라미터 값과 입력 영상의 특성에 따라 전처리 강도를 조절 할 수 있도록 학습 하되, 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법을 적용한 두 가지 방법을 제시하고 자 한다.
상기 선형 회귀 방법을 적용한 경우, 주관적 왜곡 인지 실험을 통해 얻은 최소 인지 왜곡 모델 값을 선형회귀 방법으로 추정하는 것을 의미한다. 이 때 추가적인 양자화 왜곡 크기에 따라 조절하는 파라미터 값을 적용하여 영상 패치에서 추출된 특징과 양자화 파라미터 값을 이용하게 된다.
상기 컨볼루션 신경망 방법을 적용한 경우, 실험으로 얻은 최소 인지 왜곡 모델 값과 전처리 조절 파라미터를 따로 구하는 것이 아니라 한 번에 원본 영상이 입력되어서 출력으로 압축 양자화 파라미터에 맞게 전처리 된 영상이 나오도록 학습하게 된다. 특히, 본 발명은 기존의 화질 향상 관점의 영상 처리에서 많이 활용되던 컨볼루션 신경망 방법을, 최초로 인지 화질 관점에서 화질 저하 없이 정보를 제거하는 목적으로 사용하여 높은 성능을 낼 수 있다는 것을 증명하였다.
이하 도 3 내지 도 5를 참조하여, 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 조절 파라미터 결정 과정을 설명하면 다음과 같다.
우선, 도 3 및 도 4는 본 발명에 따른 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 실험 방법 및 결과를 도시한 것이다. 또한, 도 5는 본 발명에 따른, 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.
관련하여, 도 3은 설명의 편의를 위해 영상을 1차원 주파수 성분으로 변환 했다고 가정하고 도시한 것이다. 도 3을 참조하면, 1차원 주파수 영역에서 주파수 성분의 크기를 그래프로 나타내면 도 3(a)에 도시한 바와 같이, 저 주파수영역에 큰 주파수 성분 값을 가지게 되고, 고 주파수 영역에서는 작은 값을 가지는 것이 자연적인 영상의 특성이다.
이 때, 원본 영상의 에너지가 감소되는 왜곡을 조금씩 증가 시켜가면서 실험자가 왜곡이 인지되는 지점을 찾는 방식으로 실험을 진행한다. 도 3(b)는 모든 주파수 성분의 크기를 모두 동일한 크기로 감소시켜가면서 왜곡을 발생시킨 경우를 도시한 것이다. 실험을 위해, 도 3에서는 1차원 그래프로 나타냈지만 실제로는 8x8 블록 DCT변환을 통해 얻은 각각의 8x8 블록에 대해서 동일한 크기로 감소 시키면서 왜곡을 발생 시키는 것이 바람직하다.
또한, 실험 영상 패치 크기는 32x32 크기를 사용하며, 이는 실험에 사용한 시청 거리에서 실험에 사용한 디스플레이 수단(예, FHD TV)을 시청 시, 시야 각 2° 이내로 들어오는 초점 영역으로 실험을 하는 것이 바람직하기 때문이다. 단, 이는 하나의 예에 불과하며, 다양한 실험 조건 및 방식을 선택하는 것이 가능하다.
또한, 실험에서 영상의 복잡도 특성을 기준으로 인지 왜곡 모델을 만들기 위해서 사용한 32x32 패치 영상은 자연 영상 중에서 균일한 복잡도를 가지는 영상을 선택해서 실험할 수 있다.
본 발명에서는 영상 패치 복잡도 특성에 따라 주파수 성분의 최대 감소 값을 추정하는 모델을 생성한다. 이 때, 사용한 방법은 SCI[-]라는 주파수 특성에 따라 인지적 복잡도를 측정해주는 방법을 사용한다.
즉, 균일 복잡도를 가진 다양한 92장의 32x32패치 영상에 대해서, 다수의 실험 참여자(예, 10명)의 주관적 화질 평가 결과의 각각 영상의 중간 값 결과를 가지고 선형 회귀 방법으로 도 4와 같은 실험 결과와 수식(1)의 모델을 얻을 수 있다. 여기서, 해당 모델이 의미하는 것은, SCI 값이 tSCI 인 8x8 DCT 블록에서는 인지적으로 왜곡을 인지 못하는 주파수 성분의 감소 경계 값이 KERJND임을 의미한다.
(수식1)
Figure pat00001
전술한 바와 같이, 에너지 감소 왜곡 기반 최소 인지 왜곡 모델 (Energy Reduced based JND: ERJND) 을 사용해서 영상 압축의 입력 영상의 인지되지 않지만 영상의 정보가 제거된 영상을 만들 수 있다. 구체적으로, 수식(2)와 같이 DCT 블록 내 (i,j)의 주파수 성분 값을 c(i, j)라고 할 때, 인지 왜곡 모델을 사용해서 주파수 성분의 크기를 인지가 되지 않는 정도로 줄일 수 있게 된다.
(수식2)
Figure pat00002
상기 수식(2)에 따라, 영상의 정보가 제거 되었기 때문에 동일 압축 방법을 사용하더라도 원본 영상을 입력한 것에 비해 더 적은 비트로 저장할 수 있고, 이는 부호화 효율을 향상을 가져 올 수 있다. 단, 압축 전처리로 영상의 정보를 제거하기 때문에 영상 압축 과정을 거친 뒤에도 원본을 입력한 압축 영상에 비해 화질 저하가 없음을 확신하기는 어렵다.
따라서 본 발명에서는 위의 문제를 해결하기 위해, 영상 압축 과정 내에서 발생되는 왜곡 정도를 추정해서 원본 영상을 전처리 시 제거할 정보 양을 조절할 수 있도록 하는 것에 특징이 있다.
즉, 아래 수식(3)으로부터, 전술한 ERJND모델에서 추정한 전처리 강도를 α 라는 실수 변수를 통해 조절할 수 있도록 한다. 이 때 α 는 0과 1 사이의 실수 값 이므로 1일 때에는 ERJND와 동일한 크기만큼 전처리 함을 의미하고, 0일 때에는 전처리를 하지 않음을 의미하게 된다. 또한, α값을 8x8블록 마다 영상의 특성과 양자화 파라미터에 따라 다르게 결정 하는 것이 가능하다.
(수식3)
Figure pat00003
즉, 상기 조절 파라미터 α 값은 8x8 블록 마다 한 개의 실수 값으로 결정될 수 있다. 상기 α 값 결정시는, 블록의 복잡도 특성과 압축의 양자화 파라미터 값을 특징으로 해서 모델링 한다. 관련하여, 다음 두 가지의 가정을 고려할 수 있다. 첫째, ERJND 모델을 통해서 전처리 한 영상은 원본 영상과 주관적으로 차이를 느끼지 못한다는 가정이다. 이는 주관적 실험 평가를 통해서 검증 가능하다. 둘째, 원본 영상과 ERJND 모델을 통해 얻은 전처리 영상 사이의 왜곡 정도 값 DB1 값보다 더 큰 왜곡 차이를 가진 두 영상은 주관적으로 인지되는 왜곡을 가진 것으로 가정한다. 이 때 사용되는 왜곡 값 DB는 수식(4)와 같이 주파수 성분에서의 JND 기반 L1 놈(norm) 형태로 볼 수 있다. 따라서, 상기 두 가지 가정을 이용해서 조절 파라미터 α 값을 결정하는 것이 가능하게 된다.
(수식4)
Figure pat00004
도 5는 상기 과정을 도식적으로 도시한 것이다. 도 5를 참조하면, 우선, 상기 ERJND 모델에 따라, 원본 영상(100)을 ERJND 영상(201)으로 변환하고, 왜곡 인지 기준 값인 DB1값을 획득하게 된다(202). 즉, 상기 8x8 블록 마다 인지 왜곡 기준 값인 DB1값을 획득하게 된다.
또한, 상기 조절 파라미터 α값 및 수식(3)을 적용하여, 원본 영상(100)을 JNQD 영상(211) 으로 전처리 변환한다. 상기 전처리된 영상을 기 결정된 압축 방식(예, HEVC)에 따라 압축한 뒤, 복원한 영상(212)을 원본 영상(100)과 비교해서 왜곡 기준값인 DB2를 획득하게 된다(213). 이후, 상기 DB2를 DB1와의 비 값 (Compression Distortion Visibility Metric: CDVM)을 얻을 수 있다(213). 관련하여, 상기 두번째 가정을 통해 이 두 왜곡 값 DB1 및 DB2 의 비가 1보다 작으면서 최대인 α값의 경우가 최적의 α 값으로 결정할 수 있게 된다.
여기서, 상기 복원한 영상(212)을 획득하기 위해서는, 0부터 1까지의 다양한 α값에 대해서 전처리 한 영상을 압축 한 뒤 복원하는 과정을 반복하게 된다. 즉, 상기 방법을 그대로 적용하기 위해서는 새로운 영상에 대해 다양한 α 값으로 압축 과정을 진행 후, 왜곡 정도를 비교하는 과정을 반복해야 하기 때문에 부호화 성능 측면에서 비효율적인 면이 존재하게 된다.
따라서, 본 발명은 상기 방법을 개선하여 입력 영상의 특성과 압축 양자화 파라미터 값에 따라 조절 파라미터를 추정할 수 있는 모델을 제시하고 자 한다. 실험적으로 상기 CDVM이 α값과 선형적인 관계를 가지고 있음을 확인하였고, 그 선형 기울기와 y절편이 블록 영상의 복잡도와 양자화 파라미터 값에 따라 달라짐을 확인할 수 있었다. 결국, 블록 영상에서 복잡도 특성을 추출하고 양자화 파라미터에 따라 CDVM과 α값의 선형 관계를 선형 회귀를 통해 수식(5)와 같이 추정할 수 있게 된다. 또한, 상기 선형 관계가 추정된다면 상기 가정을 통해 최적의 α값은 CDVM 값이 1일 때인 수식 (6)과 같이 결정할 수 있게 된다.
(수식5)
Figure pat00005
(수식6)
Figure pat00006
도 6은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법과 이용하여 조절 파라미터 결정 과정을 설명하기 위한 블록도 이다.
도 6을 참조하면, 전술한 도 5의 과정(200)을 통해서 다양한 영상에 대해서 CDVM 그래프를 얻은 뒤, 구해진 그래프와 블록 영상 간의 관계를 추정해서 도 6의 선형 회귀 방법에 의한 LR-JNQD 학습(300) 및 컨볼루션 신경망 방법에 의한 CNN-JNQD 학습(400)을 수행하게 된다. 본 발명은 예를 들어, 상기 두 가지 학습 방법을 모두 도시하였으나, 실제 제품 적용 실시에서는 상기 두 가지 학습 방법 중 한 가지 방법만을 활용할 수 있음은 자명하다.
도 7은 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 선형 회귀 방법을 이용한 영상 전처리 과정을 설명하기 위한 블록도 이다.
전술한 LR-JNQD 학습(300) 방법을 통해 얻은 학습 가중치(1022) 및 새로운 입력 원본 영상(100)에서 추출한 복잡도 특성(1021)과 압축에 사용될 양자화 파라미터(QP)를 이용하여, CDVM 선형 그래프 변수를 추정 후(1023), 해당 블록 영상의 최적의 값을 결정해서(1024) ERJND 모델에 적용하여 압축 왜곡 정도에 적응적인 전처리 영상(1025)을 생성하게 된다.
도 8 및 도 9는 본 발명에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 방법 및 장치에서, 컨볼루션 신경망 방법을 적용한 구조를 도시한 개념도 이다.
전술한 선형 회귀 방법(도 6)에서는, 블록 영상에서 복잡도 특성을 추출해서 α를 결정하고 기존의 ERJND 모델을 곱해서 전처리 영상을 생성하게 된다. 반면 컨볼루션 신경망 방법을 적용할 때에는 입력과 출력을 원본 영상과 영상 압축에 조절된 전처리 영상이 되도록 한 뒤 학습을 수행하였다. 도 6에서 도시한 바와 같이, 반복적인 압축 과정을 통해서 얻은 다양한 블록 별 최적의 α 값을 가지고 만든 JNQD 영상(211)을 정답 라벨로 하고 학습을 한다면 새로운 원본 영상이 입력될 때 원하는 양자화 파라미터에 따른 전처리 JNQD 영상이 출력 될 수 있게 된다. 관련하여, 상기 컨볼루션 신경망 방법에 사용하는 α값은 선형 회귀 방법으로 추정한 α값이 아닌 반복 실험으로 얻는 최적 α 값을 의미한다.
도 8을 참조하면, 컨볼루션 신경망은 특정 양자화 파라미터 구간 별로 학습을 한 뒤(도 6, 400 CNN-JNQD), 실제 영상 부호화시는, 양자화 파라미터(1026)에 따라 압축 정도에 적응적인 JNQD 영상(1028)을 선택적으로 스위칭(1027) 하여 전처리 영상(1029)을 획득하게 된다.
관련하여, 컨볼루션 신경망은 방법을 실제 적용 시, 처리 시간을 고려하여, 컨볼루션 신경망 구조를 단순한 구조를 사용하는 것이 더욱 효율적이다.
도 9를 참조하면, 본 발명의 실시예는, 최소 인지 왜곡 관련하여 최초로 컨볼루션 신경망 방법을 사용하는 것이기 때문에 가장 일반적인 구조를 적용하였다. 관련하여, 실험에 활용되는 입력 영상의 크기는 14x14로 하고 3번의 컨볼루션에서 패딩을 하지 않고 진행해서 출력 크기는 8x8이 되도록 학습하였고 손실 함수는 L2 놈을 사용하였다. 구체적으로, 두 개의 히든(hidden) 층(501, 502)을 가진 구조에, 3x3 작은 필터 사이즈를 사용해서 학습을 하였는데도 불구하고, 종래 방법 및 전술한 선형 회귀 방법에 비해서도 더 높은 압축 효율을 보여줌을 확인 할 수 있었다.
도 10 및 도 11는 본 발명의 또 다른 실시예에 따른, 최소 인지 양자화 왜곡 기반 영상 부호화 장치 및 방법을 도시한 것이다. 또한, 상기 영상 부호화 장치 및 방법에 대응한 영상 복호화 장치 및 방법을 도시한 것이다. 도 10 및 도 11을 참조하면, 본 발명의 또 다른 실시예에 따른 영상 부호화 장치는 조절 파라미터 결정부(101), 영상 전처리부(102) 및 영상 부호화부(103)를 포함한다. 상기 영상 부호화 장치를 통해 조절 파라미터(104)를 포함하여 부호화된 비트스트림이 생성되고 이를 수신한 영상 복호화 장치내의 영상 복호화부(110)는 정해진 포맷에 따라 상기 조절 파라미터(104) 값을 비트스트림으로부터 파싱(parsing) 한 후, 영상 비트스트림 복호화에 활용 한다.
즉, 도 10 및 도 11에 도시된 본 발명의 또 다른 실시예는, 부호화부(103)에서 전술한 조절 파라미터(104) 값을 부호화하여 복호화부(110)에 전달하고, 복호화부(110)는 정해진 규칙에 따라 복원된 영상의 디코딩시 또는 후처리 과정에서 상기 조절 파라미터(104) 값을 활용하는 것을 가능하게 된다.
구체적으로, 상기 조절 파라미터 결정부(101)는 영상을 입력 받아 영상 조절 파라미터를 학습한다(S210). 상기 학습 방법으로는 선형 회귀 방법과 컨볼루션 신경망 방법이 있으며, 이에 대해서는 전술한 바와 같다.
상기 영상 전처리부(102)는 상기 조절 파라미터 결정부(101)에 의해 결정된 조절 파라미터를 활용하여, 주관적 화질에 영향을 최소화하는 범위내에서 영상의 일부를 제거하는 영상 전처리 과정을 수행한다(S220) 이때 상기 생성된 조절 파라미터 값을 영상 부호화부(1030에 전달하여, 비트스트림내에 포함되도록 한다.
상기 영상 부호화부(103)는 상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하되, 상기 조절 파라미터 값을 포함한 비트스트림을 생성하게 된다(S230)
상기 영상 복호화부(110)는 전달된 상기 부호화된 비트스트림으로부터 상기 조절 파라미터 값을 파싱한 후(S240), 상기 파싱된 조절 파라미터 값을 영상 복호화 과정에 활용하게 된다(S250).
상기 영상 부호화 장치 및 영상 복호화 장치를 구성하는 각 블록은 설명의 편의를 위해 개별적인 블록으로 도시하였으나, 소프트웨어가 프로그램된 하나의 매체에서 구현하는 것도 가능하다. 상기 프로그램된 매체는, ROM 메모리를 포함할 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
101 : 조절 파라미터 결정부
102 : 영상 전처리부
103 : 영상 부호화부
110 : 영상 복호화부

Claims (1)

  1. 기계 학습을 통해 영상 조절 파라미터를 학습하여, 영상 조절 파라미터를 결정하는 단계,
    상기 결정된 조절 파라미터를 활용하여, 영상의 일부를 제거하는 영상 전처리 단계, 및
    상기 전처리된 영상에 대해 기 결정된 부호화 포맷에 따라 부호화하여, 부호화된 비트스트림을 생성하는 단계를 포함하되,
    상기 영상 조절 파라미터를 결정하는 학습 방법으로, 적어도 신경 회귀 방법 및 컨볼루션 신경망 방법 중 어느 하나를 활용하는, 영상 부호화 방법
KR1020180051225A 2018-05-03 2018-05-03 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치 KR20190127090A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180051225A KR20190127090A (ko) 2018-05-03 2018-05-03 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180051225A KR20190127090A (ko) 2018-05-03 2018-05-03 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190127090A true KR20190127090A (ko) 2019-11-13

Family

ID=68534713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180051225A KR20190127090A (ko) 2018-05-03 2018-05-03 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20190127090A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031312A (zh) * 2019-12-16 2020-04-17 山东浪潮人工智能研究院有限公司 基于网络实现注意力机制的图像压缩方法
WO2022211375A1 (ko) * 2021-03-31 2022-10-06 현대자동차주식회사 인터 예측에 딥러닝 기반 인루프 필터를 이용하는 비디오 코딩방법 및 장치
WO2022211490A1 (ko) * 2021-04-02 2022-10-06 현대자동차주식회사 전처리 및 후처리를 이용하는 비디오 코딩방법 및 장치
WO2024008147A1 (en) * 2022-07-07 2024-01-11 Douyin Vision (Beijing) Co., Ltd. System and method for learned image compression with pre-processing
CN118200573A (zh) * 2024-05-17 2024-06-14 天津大学 图像压缩方法、图像压缩模型的训练方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031312A (zh) * 2019-12-16 2020-04-17 山东浪潮人工智能研究院有限公司 基于网络实现注意力机制的图像压缩方法
WO2022211375A1 (ko) * 2021-03-31 2022-10-06 현대자동차주식회사 인터 예측에 딥러닝 기반 인루프 필터를 이용하는 비디오 코딩방법 및 장치
WO2022211490A1 (ko) * 2021-04-02 2022-10-06 현대자동차주식회사 전처리 및 후처리를 이용하는 비디오 코딩방법 및 장치
WO2024008147A1 (en) * 2022-07-07 2024-01-11 Douyin Vision (Beijing) Co., Ltd. System and method for learned image compression with pre-processing
CN118200573A (zh) * 2024-05-17 2024-06-14 天津大学 图像压缩方法、图像压缩模型的训练方法及装置

Similar Documents

Publication Publication Date Title
KR102287947B1 (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
RU2714100C1 (ru) Устройство кодирования изображений, устройство декодирования изображений, способ кодирования изображений и способ декодирования изображений
CN112913237B (zh) 使用深度神经网络的人工智能编码和人工智能解码方法和设备
KR20190127090A (ko) 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치
US10950009B2 (en) AI encoding apparatus and operation method of the same, and AI decoding apparatus and operation method of the same
US8249154B2 (en) Method and apparatus for encoding/decoding image based on intra prediction
KR101832792B1 (ko) 데이터를 손실 압축-인코딩하기 위한 방법 및 장치와 데이터를 재구성하기 위한 대응하는 방법 및 장치
JP7558965B2 (ja) ビデオ符号化における残差の処理
EP2051524A1 (en) Image enhancement considering the prediction error
KR20180100976A (ko) 딥 신경망 기반 블러 영상 학습을 이용한 영상 부호화/복호화 방법 및 장치
US20070092146A1 (en) System and method for transform coding randomization
Li et al. CNN based post-processing to improve HEVC
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
Nasiri et al. A CNN-based prediction-aware quality enhancement framework for VVC
US10129565B2 (en) Method for processing high dynamic range video in order to improve perceived visual quality of encoded content
Kirmemis et al. A Practical Approach for Rate-Distortion-Perception Analysis in Learned Image Compression
Kirmemis et al. Learned compression artifact removal by deep residual networks
US20200296358A1 (en) Method and device for encoding image according to low-quality coding mode, and method and device for decoding mage
Kudo et al. GAN-based image compression using mutual information for optimizing subjective image similarity
Jung et al. Multi-mode intra prediction for learning-based image compression
US9838713B1 (en) Method for fast transform coding based on perceptual quality and apparatus for the same
JP6916618B2 (ja) 画像符号化装置及びその制御方法及びプログラム
Thakur et al. Image coding using parametric texture synthesis
Saeedi et al. Content adaptive pre-filtering for video compression
US11563945B2 (en) Adaptive offset for variance based quantization