WO2015122726A1

WO2015122726A1 - 시각적 인지 특성을 이용한 ｐｖｃ 방법

Info

Publication number: WO2015122726A1
Application number: PCT/KR2015/001510
Authority: WO
Inventors: 김문철; 김재일
Original assignee: 한국과학기술원
Priority date: 2014-02-13
Filing date: 2015-02-13
Publication date: 2015-08-20
Also published as: US20160353131A1; KR20150095591A

Abstract

시각적 인지 특성을 이용한 PVC 방법이 제공되며, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)하는 단계, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계를 포함한다.

Description

시각적 인지 특성을 이용한 ＰＶＣ 방법

본 발명은 시각적 인지 특성을 이용한 PVC 방법에 관한 것으로, 인지 특성에 기반한 신호 성분을 압축 과정에서 제거하여 부호화할 수 있는 방법에 관한 것이다.

최근, 비디오 압축 표준인 HEVC(High Efficiency Video Coding)는 ISO/IEC 산하 MPEG 그룹과 ITU-T 산하 VCEG 그룹이 공동으로 JCT-VC(Joint Collaborative Team on Video Coding)을 구성하여 표준화를 진행하였는데, HEVC 부호화기는 다른 비디오 표준에 비하여 복잡도가 매우 높고 압축 성능이 율-왜곡 성능 관점에서 거의 포화 단계에 이르렀다.

이때, 율-왜곡 최적화 방법은, 지각적 비디오 코딩을 위한 구조적 유사성 기반의 율-왜곡 최적화 방법으로 이루어진다. 이와 관련하여, 선행기술인 한국공개특허 제2014-0042845호(2014.04.07 공개)에는, SSIM을 통하여 율 왜곡 최적화를 하는 방법이 개시되어 있고, 선행기술인 미국공개특허 제2014-0169451호(2014. 06.19 공개)에는, 템플릿 매칭을 통한 PVC(Perceptual Video Coding)를 수행하는 방법이 개시되어 있다.

다만, 템플릿 매칭을 통하여 PVC를 수행한다고 하더라도, 텍스쳐 복잡도 JND(Just Noticeable Difference) 모델을 계산하기 위하여 화소 블록에 대한 DCT를 추가로 수행하여 복잡도가 증가하므로, 컴퓨팅 자원의 리소스 및 메모리를 고려할 때 HEVC 부호화기에 적용하기가 현실적으로 불가능한 실정이다.

본 발명의 일 실시예는, JND를 이용한 PVC를 수행할 때, 텍스처 복잡도 JND 모델을 계산하기 위하여 DCT를 추가로 수행함이 없이 화소 블록의 복잡도만을 이용하여 텍스처 복잡도 JND 모델을 계산하기 때문에, 계산량 및 리소스 사용량이 낮아 실시간 HEVC 부호화기에 적용이 가능한 시각적 인지 특성을 이용한 PVC 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)하는 단계, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사람이 인지하는 민감도에 따라 JND를 적용하므로 비트를 동일하게 줄인다고 할지라도 시각적으로 품질이 뛰어난 압축을 할 수 있으며, PVC에서 사람이 인지하는 못하는 신호 성분을 추가적으로 제거함으로써 시각적 품질은 유지하면서도 압축률을 증가시킬 수 있고, DCT를 별도로 계산하지 않고 텍스처 복잡도 JND를 얻어내기 때문에 계산량 및 복잡도가 낮아 실시간 부호화에 활용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 개념도이다.

도 2는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치를 설명하기 위한 블록 구성도이다.

도 3은 종래 기술에 따른 부호화 방법을 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 도면이다.

도 5는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 개념도이다. 도 1을 참조하면, 본 발명의 시각적 인지 특성을 이용한 PVC 방법은 사람의 시각 인지 특성(visual perception characteristic)을 이용하여 사람이 인지하지 못하는 신호 성분을 압축 과정에서 제거함으로써, 사람이 인지하는 주관적인 화질 손상을 최소화하면서, 압축 성능은 개선하여 더 높은 압축률의 비트 스트림을 출력할 수 있는, 인지 비디오 부호화(Perceptual Video Coding, 이하, PVC 라 한다) 방법을 개시한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 시각 인지 특성을 이용하여 율-인지화질왜곡 최소화(R-PQDO: Output Bitrate Perception Quality Distortion Optimization)할 수 있도록 한다. 즉, 사람이 영상 신호의 왜곡을 인지하는 최소 임계값을 주파수별 또는 픽셀별로 측정하고, 측정된 데이터를 모델링하는 기술이 적용될 수 있다. 이를 위하여, 영상 신호의 왜곡에 대한 시각 인지 특성인 최소가치차, 즉 JND(Just Noticeable Difference) 모델을 주파수 도메인(Frequency Domain) 및 픽셀 도메인(Pixel Domain)에서 사용하도록 한다.

여기서, JND는 사람의 시각 잔여를 얻어내기 위한 시각적 인지 모델 중 하나일 수 있다. 여기서, 시각적 인지 모델 중 하나인 JND는 영상 신호에 자극 또는 변화가 발생하였을 때, 사람이 처음으로 자극 또는 변화를 인지하는 원 신호와의 차이값으로 정의될 수 있다.

여기서, HEVC에서는 부호화를 진행할 때, 변환을 수행하지 않고 양자화만을 수행하는 모드인 TSM(Transform Skip Mode)와, 변환 및 양자화를 모두 수행하는 모드인 nonTSM(non Transform Skip Mode)로 구성될 수 있다.

첫 번째로, nonTSM에 대한 설명을 하기로 한다.

이때, nonTSM에서의 JND 모델인 JND_nonTSM은 하기 수학식 1과 같이 정의될 수 있다.

수학식 1

여기서, JND_nonTSM(i,j,μ,τ,mv)는 주파수 도메인, 즉 nonTSM에서 사용되는 JND값이고, α는 상수이며 압축 성능을 최대화할 수 있도록 설정될 수 있다. 또한, H_csf(i,j)는 주파수의 변화에 따른 사람의 인지 특성을 모델링한 인지 특성 모델을 의미하고, MF_LM(μ_p)는 부호화하고자 하는 입력 블록인 변환 블록의 신호 밝기를 모델링한 신호 밝기 특성 모델을 의미하고, MF_CM(ω(i,j),mv)는 변환 블록의 텍스처 복잡도 특성을 모델링한 텍스처 복잡도 특성 모델을 의미하고, MFTM(ω(i,j),mv)은 변환 블록의 움직임 복잡도 특성을 모델링한 움직임 복잡도 특성 모델을 의미한다. 또한, μ_p는 변환 블록 내의 평균 픽셀값으로 정의되고, τ는 변환 블록 내의 복잡 평균값으로 정의되고, mv는 움직임 벡터로 정의된다. 여기서, 적어도 하나의 프레임에 포함된 변환 블록은 인지 부호화를 위하여 입력되는 적어도 하나의 프레임에 포함된 입력 데이터로 정의한다.

여기서, ω(i,j)는 하기 수학식 2와 같이 정의될 수 있다.

수학식 2

여기서, θ_x는 한 픽셀당 가로축의 화면 각도(Visual Angle)로 정의되고 상수이며, θ_y는 한 픽셀당 세로축의 화면 각도로 정의되고 역시 상수이다. 그리고, M은 변환 블록의 크기를 의미하고, 예를 들어 4, 8, 16, 32의 값을 가질 수 있다. 또한, (i,j)는 주파수 도메인에서의 위치를 의미하며, 예를 들어 0 내지 M-1까지의 값을 가질 수 있다.

또한, 인지 특성 모델인 H_csf(i,j)는 하기 수학식 3과 같이 정의될 수 있다. 이때, 인지 특성 모델은 주파수 인지 특성 모델일 수 있다.

수학식 3

여기서, a, b, c, r은 상수이고, φ_i는 주파수 도메인의 위치가 i일 때의 DCT(Discrete Cosine Transform)의 정규화 값으로 정의되고, φ_j는 주파수 도메인의 위치가 j일 때의 DCT의 정규화 값으로 정의되고, ψ_i,j는 DCT 요소에 대한 대각선 각을 의미하고, ω(i,j)는 주파수 도메인의 위치가 (i,j)일 때의 공간 주파수를 의미한다.

그리고, 신호 밝기 특성 모델인 MF_LM(μ_p)는 하기 수학식 4와 같이 정의될 수 있다.

수학식 4

여기서, 신호 밝기 특성 모델은 사람이 중간 밝기의 화소에서 신호의 변화에 상대적으로 민감한 특성을 이용한 것이다. 여기서, k는 픽셀을 나타내기 위한 비트 깊이(Bit Depth)를 의미하고, A, B, C, D는 상수이고, μ_p는 변환 블록 내의 평균 픽셀값이며 하기 수학식 5와 같이 정의된다.

수학식 5

여기서, I(x,y)는 변환 블록의 픽셀값을 의미하고, M은 변환 블록의 크기를 의미한다. 그리고, 텍스처 복잡도 특성 모델인 MF_CM(ω(i,j),mv)는 변환 블록의 복잡도가 높을수록 변화에 둔감한 특성을 이용한다. 여기서, 엣지(Edge) 판별을 통하여 계산되는 τ는 하기 수학식 6과 같다.

수학식 6

여기서, edge(x,y)는 (x,y) 위치에서 엣지 판별에 의해 엣지로 선택된 경우에는 1로 설정되고, (x,y) 위치에서 엣지 판별에 의해 엣지로 선택되지 않은 경우에는 0으로 설정된다.

한편, 움직임 복잡도 특성 모델인 MF_TM(ω(i,j),mv)은 하기 수학식 7과 같이 정의된다.

수학식 7

여기서, 움직임 복잡도 특성 모델은, 변환 블록의 움직임이 큰 경우, 픽셀의 변화에 둔감한 특성을 이용할 수 있다. 여기서, mv는 움직임 벡터이며, f_s는 공간적 주파수를 의미하고, f_t는 시간적 주파수를 의미하고, ω(i,j)와 mv에 의하여 결정될 수 있다.

상술한 바와 같이, JND_nonTSM는 주파수 영역의 4 가지 특성 모델을 이용하여 비디오 부호화에서 변환 블록을 부호화할 수 있다.

이때, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 4 가지의 특성 모델을 모두 사용하지 않아도 가능할 수 있다. 즉, 변환 블록을 부호화하는 과정에서, 부호화를 수행하는 컴퓨팅 자원의 리소스의 한계와, 4 가지 특성 모델을 모두 고려하는 수학식 1과 같은 계산의 복잡도를 고려할 수 있다. 따라서, 4 가지 특성 모델을 모두 이용하지 않고, 4 가지 특성 모델 중 적어도 하나를 선택하여 수학식 1과 같은 JND_nonTSM를 다른 버전으로 구성할 수 있다. 이때, JND_nonTSM의 다른 버전을 구성할 때, 본 발명에 따른 인지 특성 모델은 반드시 포함하도록 할 수 있다. 이에 따라, JND_nonTSM의 다른 버전은 하기 수학식 8 내지 수학식 10과 같을 수 있다. 이때, 수학식 8 내지 수학식 10에서 JND_nonTSM의 다른 버전을 JND_nonTSM1, JND_nonTSM2, JND_nonTSM3로 명명하였지만, 모두 nonTSM의 JND인 JND_nonTSM를 의미한다는 것은 자명하다 할 것이다.

수학식 8

여기서, α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다. 수학식 8은 본 발명의 인지 특성을 나타내는 수학식으로써, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법에서는, 사람의 시각적인 인지 특성을 이용하므로, 인지 특성 모델은 필요 조건으로 반드시 포함되도록 할 수 있다.

수학식 9

여기서, 수학식 9는 인지 특성 모델 및 신호 밝기 특성 모델을 이용하여 JND_nonTSM를 구성한 수학식이다. 이때, 수학식 8과 마찬가지로 α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다.

수학식 10

여기서, 수학식 10은 인지 특성 모델, 신호 밝기 특성 모델 및 텍스처 복잡도 특성 모델을 이용하여 JND_nonTSM를 구성한 수학식이다. 이때, 수학식 9와 마찬가지로 α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다.

상술한 수학식 8 내지 수학식 10 뿐만 아니라, 인지 특성 모델은 필수조건으로, 신호 밝기 특성 모델, 텍스처 복잡도 특성 모델, 움직임 복잡도 특성 모델을 충분조건으로 조합될 수 있는 모든 JND_nonTSM를 생성하는 수학식 구성이 가능하다.

이때, 하드웨어로 구성된 부호화기의 경우, 곱셈 연산이 컴퓨팅 자원의 리소스 한계에 따라 용이하지 않은 경우가 발생할 수 있는데, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 테이블 형태로 구성이 가능하다. 예를 들어, 수학식 8 및 수학식 9의 경우, 변환 블록의 크기에 따른 JND 값을 미리 생성하여 테이블 형태로 메모리에 저장하고, 입력 변수의 변화에 따라 미리 저장된 데이터를 이용하는 방식으로 리소스 및 하드웨어 사용량을 최소화할 수 있다.

두 번째로, TSM에 대한 설명을 하기로 한다. 이때, TSM에서의 JND 모델인 JND_TSM을 하기 수학식 11을 참조로 설명한다.

HEVC에서 부호화를 진행할 때, 변환을 수행하지 않고 양자화만을 수행하는 모드인 TSM는, JND_TSM(μ_p)를 사용할 수 있는데 이는 하기 수학식 11로 정의된다.

수학식 11

본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 주파수 도메인 JND 모델 및 픽셀 도메인 JND 모델을 변환과 양자화를 통하여 부호화를 수행하는 모드와, 변환을 수행하지 않고 양자화만을 통하여 부호화를 수행하는 모드에 따라 하이브리드로 적용할 수 있다. 다만, 변환 및 양자화를 통해 부호화를 수행하는 모드를 제외하는 것은 아니다.

한편, 기존의 주파수 도메인의 텍스처 복잡도 특성 모델은 하기 수학식 12와 같았으나, 본 발명의 일 실시예에 따른 텍스처 복잡도 특성 모델은 하기 수학식 13과 같다. 이때, 텍스처 복잡도 특성 모델은 주파수 도메인의 텍스처 복잡도 특성 모델일 수 있다.

수학식 12

이때, C(i,j,k)는 원 픽셀 블록의 DCT를 수행한 결과값이고, s는 상수값이다. 여기서, 비디오 부호화에서는, 예측 이후의 원신호와 예측 신호의 차인 잔차 신호에 대하여 변환 및 양자화를 통하여 부호화를 수행한다. 수학식 12에서는 모든 입력 블록에 따라 원신호에 대한 DCT를 수행해야 한다. 하지만, HEVC의 경우 CTU내에 부호화 블록(CU: Coding Unit), 예측 블록(PU:　Prediction Unit), 변환 블록(TU: Transform Unit) 모드를 결정하기 위해 율-왜곡 값을 계산하게 되는데, 그때마다 입력되는 원 신호 블록에 DCT를 수행하면 HEVC의 참조 소프트웨어(Reference SW)인 HM(HEVC Test Model)에서 전체 부호화 시간의 10배 이상 복잡도가 증가하게 되어, 실질적으로 수학식 12의 모델은 사용 불가능하다. 따라서, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 하기 수학식 13과 같다.

수학식 13

수학식 13은, 엣지 판별을 이용하여 입력 블록의 복잡도를 계산하고, 주파수 도메인의 위치에 따라 계산이 가능하다. 이때, 블록 단위로 미리 계산이 가능한 파라미터가 존재하므로, 주파수의 위치에 따라 한 번의 곱셈 및 덧셈 연산만으로도 수학식 13이 산출될 수 있고, 사람의 시각적 인지 품질 실험 결과와 비교하였을 때 PCC (Pearson Correlation Coefficient)와 RMSE(Root Mean Square Error)가 93.95%로 높은 성능을 보였다.

수학식 1 내지 수학식 13을 통하여 상술한 JND 모델을 적용하여, HEVC에 적합한 PVC 방법을 이하에서 설명하기로 한다.

일반적으로 PVC는 표준에 적합한 방법(standard-compliant scheme)과 표준에 적합하지 않은 방법(standard-incompliant scheme)으로 구분될 수 있다. 이때, 표준에 적합하지 않은 PVC 방법의 경우 기존 표준의 복호화기에 추가적인 연산을 통해 부호화 효율을 개선하기 때문에 성능 개선이 높은 반면, 기존의 표준에 맞지 않아 통용되는 표준에 적합한 복호화기에 복호화가 불가능하여 활용도가 낮다. 하지만, 표준에 적합한 PVC 방법은 부호화기의 설계를 통해 부호화 효율을 개선하고, 복호화기에 전혀 영향을 주지 않도록 설계되기 때문에 통용되는 표준에 적합한 복호화기에 복호화가 가능하여 널리 사용이 가능하다.

기존의 표준 적합한 부호화 방법은 대부분 이전 비디오 압축 표준인 H.264/AVC에 개시되어 있으며, 재귀연산 및 곱 연산을 통해 부호화를 수행하므로 복잡도가 매우 높아 낮은 연산 복잡도를 요구하는 실시간 또는 하드웨어 HEVC 부호화기에서는 적용이 거의 불가능하다. 하지만, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 수학식 1 내지 수학식 13을 통하여 상술한 JND 모델을 적용하여 표준에 적합한 방법을 간단한 연산만을 통하여 구현할 수 있다. 이때, 하기 수학식 14는 PVC를 적용하지 않은 양자화에 따른 수학식이고, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 수학식 15이다. 본 발명의 시각적 인지 특성을 이용한 PVC 방법은 표준에 적합한 방법을 간단한 연산만으로도 계산이 가능하다.

수학식 14

이때, z(n,i,j)는 n번째 블록, (i,j) 위치의 변환 이후 양자화 이전의 계수인 변환 계수이고, l(n,i,j)는 n번째 블록, (i.j) 위치의 변환 및 양자화 이후의 양자화 계수이다. f_QP%6은 나눗셈을 제거하기 위하여 쉬프트 연산으로 수행되는 값으로 정의되고, 양자화 파라미터에 의해 결정될 수 있다.

수학식 15

l_JND(n,i,j)는 n 번째 블록, (i,j) 위치의 변환 이후, PVC 방법을 적용한 양자화 이후의 계수일 수 있다. 만약, |z(n,i,j)| 값이 JND'(n,i,j) 보다 작거나 같은 경우, L_JND(n,i,j)는 0이고, 큰 경우에 대해서는 |z(n,i,j)| 값에서 JND'(n,i,j)를 감산하고 양자화를 수행한다. 이때, 본 발명의 일 실시예에 따른 JND'(n,i,j)는 스케일업된 JND 값으로 하기 수학식 16과 같이 계산될 수 있다.

수학식 16

여기서, 변환 블록이 nonTSM인 경우, JND(n,i,j)에 수학식 1을 대입하고, TSM인 경우 JND(n,i,j)에 수학식 11을 대입한다. 또한, 수학식 16에서 트랜스폼쉬프트(Transformshift)는 HEVC의 변환 커널이 정수 연산만을 수행하도록 하고, 변환 커널 크기에 따라 놈(norm) 값이 다르기 때문에, 변환 블록의 크기에 따라 4×4의 경우 5, 8×8의 경우 4, 16×16의 경우 3, 32×32의 경우 2의 값을 넣어 JND 값이 변환 계수 z(n,i,j)와 동일한 레벨로 설정되도록 넣어주어, 최종적인 수학식 16의 값을 계산할 수 있다. 이때, 수학식 15에서 볼 수 있듯이, 각 잔차신호의 위치에 따라 JND 값을 빼주기만 하면 되기 때문에 뺄셈 연산만을 통하여 JND를 적용하는 저복잡도 PVC 방법이 가능해진다.

이때, 본 발명의 일 실시예에 따른 시각적 인지 특성 PVC 방법은, 성능 및 리소스를 고려하여 예를 들어 4x4에서 32x32 크기의 변환 블록 중 일부만을 선택하여 JND값을 적용한 PVC가 가능하다. 예를 들어, 44와 88 블록에 대해서만 PVC를 적용하고, 나머지, 16x16와 32x32에 대해서는 PVC를 적용하지 않을 수 있다. 다만, 상술한 예에 한정되는 것은 아니고, 모든 변환 블록 크기 조합에 대하여 PVC 방법의 적용 여부가 변경될 수 있음은 자명하다 할 것이다.

상술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 실행 과정을 이하에서 종래 기술과 비교하여 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치를 설명하기 위한 블록 구성도이고, 도 3은 종래 기술에 따른 부호화 방법을 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치(100)는, 생성부(110), 산출부(120), 쉬프트부(130), 양자화부(140), 비트 스트림 생성부(150) 및 예측 데이터 생성부(160)를 포함할 수 있다.

도 2를 참조로 하여 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 하이브리드에 대한 일 실시예를 설명한다. 즉, 변환 블록이 TSM인 경우와 변환 블록이 nonTSM 경우를 모두 설명한다. 다만, 변환 블록이 TSM인 경우 또는 변환 블록이 nonTSM인 경우인 하이브리드로 구현되지 않는 것을 배제하는 것은 아니며, 각각 실행될 수 있다는 것은 자명하다 할 것이다.

생성부(110)는 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성할 수 있다. 여기서, 프레임 간 예측은, ME(Motion Estimation) 및 MC(Motion Compensation)이 이용되고, 프레임 간 예측 또는 프레임 내 예측 후, 변환 블록이 TSM인 경우 또는 nonTSM인 경우로 선택될 수 있다.

산출부(120)는, 변환 블록이 TSM(Transform Skip Mode)인 경우, 픽셀 도메인(Pixel Domain) JND(Just Noticeable Difference)를 산출하고, 변환 블록이 nonTSM(non Transform Skip Mode)인 경우, 변환 도메인(Transform Domain) JND를 산출할 수 있다. 여기서, 변환 블록이 nonTSM인 경우, 산출부(120)는, 변환 도메인 JND를 산출할 때 사람의 주파수에 따른 인지 특성 모델, 변환 블록의 움직임 복잡도 특성 모델, 변환 블록의 텍스처 복잡도 특성 모델 및 변환 블록의 신호 밝기 특성 모델 중 적어도 하나의 모델을 이용하여 변환 도메인 JND를 산출할 수 있다. 또한, 산출부(120)는, 변환 블록이 TSM인 경우, 픽셀 도메인 JND를 산출할 때 픽셀 특성 모델을 이용할 수 있다.

쉬프트부(130)는, 변환 블록이 TSM인 경우, 잔차 신호를 트랜스폼쉬프트(Transformshift)를 이용하여 쉬프트된 잔차 신호를 생성하고, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)할 수 있다. 이때, 도 3 및 도 4에는 변환 블록이 TSM인 경우 잔차 신호가 출력된 후 쉬프트하는 과정이 생략되어 있으나, 본 발명의 상세한 설명으로 갈음하기로 한다. 여기서, 쉬프트부(130)는, 트랜스폼쉬프트(Transformshift)를 이용하여 산출된 JND의 값이 변환 블록의 변환 계수의 크기에 맞추도록 한다.

양자화부(140)는, 변환 블록이 TSM인 경우 쉬프트된 잔차 신호를 쉬프트된 픽셀 도메인 JND를 감산하고, 변환 블록이 nonTSM인 경우 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화할 수 있다. 이때, 변환 블록이 TSM인 경우, 쉬프트된 잔차 신호가 쉬프트된 픽셀 도메인 JND보다 크면, 잔차 신호의 쉬프트된 잔차 신호로부터 쉬프트된 픽셀 도메인 JND를 감산하고, 쉬프트된 잔차 신호가 쉬프트된 픽셀 도메인 JND보다 작거나 같으면 0으로 출력하고, 변환 블록이 nonTSM인 경우, 변환 계수가 쉬프트된 변환 도메인 JND보다 크면, 잔차 신호의 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하고, 변환 계수가 쉬프트된 변환 도메인 JND보다 작거나 같으면 0을 출력하는 것에 의해 수행될 수 있다. 여기서, 쉬프트된 잔차 신호는 잔차 신호에 대한 양자화 이전의 계수이고, 변환 계수는 잔차 신호에 대한 변환 이후, 양자화 이전의 계수일 수 있다.

비트 스트림 생성부(150)는, CABAC(Context-based Adaptive Binary Arithmetic Code)을 통하여 비트 스트림을 생성할 수 있다.

예측 데이터 생성부(160)는, 변환 블록이 TSM인 경우, 역양자화(Inverse Quantization)를 및 쉬프트 연산을 수행하고, 변환 블록이 nonTSM인 경우, 역양자화 및 역변환(Inverse Transform)을 수행할 수 있다. 또한, 예측 데이터 생성부(160)는, 역양자화와, 역양자화 및 역변환이 수행된 변환 블록과, 적어도 하나의 프레임에 포함된 변환 블록인 입력 블록에 기초하여 변환 예측 블록을 생성할 수 있다. 여기서, 변환 예측 블록은 프레임 내 예측에 이용되고, 변환 예측 블록을 디블록 필터(Deblocking Filter)한 결과는 프레임 간 예측에 이용될 수 있다.

상술한 구성을 가지는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법과, 기존의 PVC 방법을 도 3 및 도 4를 참조로 하여 설명한다.

기존의 VC 방법은, 도 3을 참조하면 TSM인 경우, (5), (7), (8)의 과정을 거치고, nonTSM인 경우, (6), (7), (8)의 과정을 거쳐 변환 및 양자화를 수행한다. 반면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 도 4를 참조하면, TSM인 경우, (5), (8), (9), (10), (11), (12)의 과정을 거쳐 비트 스트림을 생성하고, nonTSM인 경우, (5), (7), (9), (10), (11), (12)의 과정을 통하여 비트 스트림을 생성한다. 즉, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, nonTSM과 TSM을 구분하여 JND 모델을 선택하고, 인지 특성을 이용한 JND 모델에서도 계산 과정을 최소화하였기 때문에, 리소스 요구량 및 계산량이 현저하게 줄어들 수 있다.

한편, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 율-왜곡값은 커지지 않도록 함과 동시에 성능은 추가적으로 개선하기 위하여, 하기 수학식 17을 수학식 18과 같이 보완하였으며, 수학식 18에 대한 F 파라미터에 대한 수학식은 수학식 19와 같다.

수학식 17

이때, J₁은 H.264/AVC와 HEVC를 포함한 최근 이용되는 비디오 압축 표준에서 최적의 모드를 결정하기 위한 값으로 정의한다. 또한, D는 왜곡 값으로 보통 SSE(Sum of Squared Error)를 사용하고, R은 부호화를 통해 발생되는 비트이며, λ는 QP (Quantization Parameter)의 함수로 D와 R의 최적화를 위해 곱해진 라그랑지안 승수 값이다.

다만, 수학식 17에서 왜곡 값으로 사용되는 SSE가 항상 사람의 인지 특성을 반영하진 않는다. 또한 JND를 통해 비트를 줄인 만큼 QP만큼을 계산하여 λ을 크게 해주기 때문에, PVC에 적용할 경우, PVC가 적용된 블록에 데이터가 줄어들수록 λ 값은 커지게 되고, 다양한 크기의 부호화 블록, 예측 블록, 변환 블록 모드를 이용할 뿐만 아니라 8×8, 16×16, 32×32, 64×64 크기의 SKIP 모드를 지원하기 때문에, SKIP 모드의 비율 증가로 인한 성능 개선에 한계를 가져오게 된다.

따라서, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 하기 수학식 18을 사용한다.

수학식 18

이때, F는 D를 보상해 주는 값으로 정의되고, 하기 수학식 19를 통하여 산출될 수 있다.

수학식 19

본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 이용할 경우, SKIP 모드의 비율이 높아지지 않고, 율-왜곡 값이 줄어들어 성능을 추가적으로 개선할 수 있다. 또한, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 부호화 성능에 대하여 실험한 결과, 주관적 화질은 크게 변화가 없으면서 LD(Low Delay) 조건의 경우, 최대 49.1% 및 평균 16.1%, RA(Random Access) 조건의 경우, 최대 37.28% 및 평균 11.11%의 비트율이 감소한 것을 확인할 수 있었다. 또한, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 HM과 비교하여 LD의 경우 11.25%, RD의 경우 22.78% 정도만의 부호화기 복잡도가 증가하였는데, 종래기술에 따른 방법 LD에서 789.88%, RA에서 812.85%가 증가하던 것에 비하면 매우 작은 수치인 것을 알 수 있다.

도 5는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 시각적 인지 특성을 이용한 PVC 장치는, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성한다(S5100).

그리고 나서, 시각적 인지 특성을 이용한 PVC 장치는, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출한다(S5200).

또한, 시각적 인지 특성을 이용한 PVC 장치는, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)한다(S5300).

마지막으로, 시각적 인지 특성을 이용한 PVC 장치는, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화한다(S5400).

도 5와 같은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계;

상기 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계;

상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계;

상기 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계

를 포함하는 시각적 인지 특성을 이용한 PVC(Perceptual Video Coding) 방법.
제 1 항에 있어서,

상기 변환 도메인 JND를 산출할 때 사람의 주파수에 따른 인지 특성 모델을 이용하여 상기 변환 도메인 JND를 산출하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 2 항에 있어서,

상기 변환 도메인 JND를 산출할 때, 상기 변환 블록의 움직임 복잡도 특성 모델, 상기 변환 블록의 텍스처 복잡도 특성 모델 및 상기 변환 블록의 신호 밝기 특성 모델 중 적어도 하나의 모델을 이용하여 상기 변환 도메인 JND를 산출하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 3 항에 있어서,

상기 변환 블록의 텍스처 복잡도 특성 모델은, 엣지(Edge) 판별을 이용하여 산출된 상기 변환 블록의 복잡도 및 주파수 도메인의 위치에 기초하여 산출되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 프레임 간 예측은, ME(Motion Estimation) 및 MC(Motion Compensation)가 이용되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계는,

트랜스폼쉬프트(Transformshift)를 이용하여 상기 산출된 JND의 값이 상기 변환 블록의 변환 계수와 동일한 레벨로 설정하는 것인, 입력 신호의 크기와 동일하도록 하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계는,

상기 변환 계수가 상기 쉬프트된 변환 도메인 JND보다 크면, 상기 잔차 신호의 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하고, 상기 변환 계수가 상기 쉬프트된 변환 도메인 JND보다 작거나 같으면 0을 출력하는 것에 의해 수행되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 변환 계수는 상기 잔차 신호에 대한 변환 이후, 양자화 이전의 계수인 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 양자화하는 단계 이후에,

CABAC(Context-based Adaptive Binary Arithmetic Code)을 통하여 비트 스트림을 생성하는 단계

를 더 포함하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 1 항에 있어서,

상기 양자화하는 단계 이후에,

역양자화 및 역변환(Inverse Transform)을 수행하는 단계;

상기 역양자화와, 역양자화 및 역변환이 수행된 변환 블록과, 상기 적어도 하나의 프레임에 포함된 변환 블록인 입력 블록에 기초하여 변환 예측 블록을 생성하는 단계

를 더 포함하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
제 10 항에 있어서,

상기 변환 예측 블록은 상기 프레임 내 예측에 이용되고, 상기 변환 예측 블록을 디블록 필터(Deblocking Filter)한 결과는 상기 프레임 간 예측에 이용되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계;

상기 변환 블록이 TSM(Transform Skip Mode)인 경우, 픽셀 도메인(Pixel Domain) JND(Just Noticeable Difference)를 산출하고, 상기 변환 블록이 nonTSM(non Transform Skip Mode)인 경우, 변환 도메인(Transform Domain) JND를 산출하는 단계;

상기 변환 블록이 TSM인 경우, 상기 잔차 신호를 트랜스폼쉬프트(Transformshift)를 이용하여 쉬프트된 잔차 신호를 생성하고, 상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계;

상기 변환 블록이 TSM인 경우 상기 쉬프트된 잔차 신호로부터 쉬프트된 픽셀 도메인 JND를 감산하고, 상기 변환 블록이 nonTSM인 경우 상기 잔차 신호의 출력이 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계

를 포함하는 시각적 인지 특성을 이용한 PVC(Perceptual Video Coding) 방법.
제 1 항 내지 제 12 항 중 어느 하나의 항에 따른 방법을 실행하는 컴퓨터로 읽을 수 있는 기록매체.